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操作 系统 的 基本 原理 与 简单 实现 


-- 基 于 ucore OS + RISC-V 


对 于 在 校 的 学 生 和 已 经 参加 工作 的 工程 师 而 言 ， 能 否 以 较 小 的 时 间 和 精力 比较 全 面 地 了 解 操 
作 系 统 呢 ? 陆游 老夫 子 说 过 “ 纸 上 得 来 终 觉 浅 ， 绝 知 此 事 要 躬 行 ”， 也 许 在 了 解 基本 的 操作 系统 
概念 和 原理 基础 上 ， 通 过 实际 动手 来 一 步 一 步 分 析 、 设 计 和 实现 一 个 微型 化 的 操作 系统 ， 会 
发 现 操作 系统 原来 如 此 ， 概 念 原理 和 实际 实现 之 间 有 紧密 的 联系 和 巨大 的 差异 。 


早期 开放 开源 的 UNIX 操 作 系 统 和 MIT 教 授 Frans Kaashoek 等 基于 UNIX v6 设计 的 xv6 操 作 系 
统 给 了 我 们 启发 : 对 一 个 计算 机 专业 的 本 科 生 而 言 ， 设 计 实 现 一 个 操作 系统 有 挑战 但 是 可 
行 ! 但 x86 相 对 封闭 & 复 杂 和 有 一 定 历 史 包 被 的 CPU 硬件 接口 给 ODS 学 习 带 来 了 一 定 的 挑战 。 
1980 年 前 后 ，UC Berkeley 的 Dave Patterson 主 导 了 Berkeley RISC 项 目 并 设计 了 其 第 一 代 的 
处 理 器 RISC 1， 并 在 2014 年 发 展 到 了 开放 & 开 源 的 第 五 代 指 令 集 架构 RISC-V。 本 书 想 进行 这 
样 的 教学 尝试 ， 以 操作 系统 基本 原理 为 教学 引导 ， 以 简洁 的 RISC-V CPU 为 底层 硬件 基础 ， 设 
计 并 实现 一 个 微型 但 全 面 的 * 麻 敌 "操作 系统 一 ucore。 期 望 能 够 采用 简化 的 计算 机 硬件 为 基 
础 ， 以 操作 系统 的 基本 概念 和 核心 原理 为 实践 指导 ， 逐 步 解 析 操 作 系 统 各 种 知识 点 和 对 应 的 
实验 ， 做 到 有 "“ 理 "可 循 和 有 "“ 码 "可 查 ， 最 终 让 读者 了 解 和 掌握 操作 系统 的 原理 、 设 计 与 实现 。 
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用 一 句 话 描述 本 章 


站 在 一 万 米 的 高 空 看 操作 系统 的 发 展 和 特征 |! 


本 章 概述 


本 章 站 在 一 万 米 的 高 空 来 看 操作 系统 和 计算 机 原理 。 相 对 用 软件 而 言 ， 操 作 系 统 其 实 是 一 个 
相 比 较 复 杂 的 系统 软件 ， 直 接管 理 计算 机 硬件 和 各 种 外 设 ， 以 及 给 应 用 软件 提供 帮助 。 这 样 
描述 还 太 简 单 了 一 些 ， 我 们 可 对 其 进一步 描述 : 操作 系统 是 一 个 可 以 管理 CPU、 内 存 和 各 种 
外 设 ， 并 管理 和 服务 应 用 软件 的 软件 。 为 了 完成 这 些 工作 ， 操 作 系 统 需 要 知道 如 何 与 硬件 打 
交道 ， 如 何 更 好 地 面向 应 用 软件 做 好 服务 。 

本 章 将 讲述 操作 系统 学 习 的 一 些 基础 知识 ， 以 及 对 用 于 本 书 的 ucore 教 学 操作 系统 做 一 个 介 
绍 。 然 后 再 简单 介绍 操作 系统 的 基本 概念 、 操 作 系 统 抽象 以 及 操作 系统 的 特征 。 最 后 还 将 简 
要 介绍 操作 系统 的 历史 和 基本 架构 。 


本 书 希 望 通过 设计 实现 操作 系统 来 更 好 地 理解 操作 系统 原理 和 概念 。 设 计 实 现 操作 系统 其 实 
就 是 设计 实现 一 个 可 以 管理 CPU、 内 存 和 各 种 外 设 ， 并 管理 和 服务 应 用 软件 的 系统 软件 。 为 
此 还 是 需要 先 了 解 一 些 基本 的 计算 机 原理 和 编程 的 知识 。 本 书 的 例子 和 描述 需要 读者 学 习 过 
计算 机 原理 课程 、 程 序 设计 课程 ， 掌 握 C 语 言 编程 (了解 指针 等 的 编程 ) 。 如 需 完成 基于 
RISC-V 的 ucore 实 验 ， 则 对 基于 RISC-V 的 体系 结构 有 一 定 的 了 解 ， 大 致 了 解 RISC-V 的 汇编 语 
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了 解 计 算 机 硬件 架构 


操作 系统 作为 软件 ， 首 先 要 能 在 计算 机 硬件 上 运行 ， 并 完成 其 第 一 要 务 : 对 硬件 进行 管理 和 
控制 。 要 想 深入 理解 操作 系统 ， 就 需要 了 解 支撑 操作 系统 运行 的 硬件 环境 ， 即 了 解 处 理 器 体 
系 结构 和 机 器 指令 集 ， 来 探索 CPU 对 操作 系统 的 影响 ， 以 及 操作 系统 如 何 通 过 各 种 操作 来 管 
理 硬件 的 。 当 前 的 硬件 和 CPU 有 很 多 种 ， 在 细节 上 有 很 大 的 不 同 ， 如果 一 开始 就 陷入 硬件 细 
节 ， 不 利于 同学 对 OS 和 计算 机 硬件 之 间 的 关 ee 览 性 的 理解 。 所 以 ， 我 
们 将 先 简单 介绍 一 个 抽象 的 简化 计算 机 系统 ， 然 后 在 逐步 进入 到 某 一 具体 CPU， 即 RISC-V， 
的 硬件 细节 中 。 


一 般 计 算 机 硬件 架构 


这 里 介绍 一 下 运行 操作 系统 的 基本 计算 机 硬件 架构 。 一 台 计 算 机 可 抽象 一 台 以 图 灵机 (Turing 
Machine ) 为 理想 模型 ， 以 冯 诺 依 曼 架构 ( Von Neumann Architecture ) 为 实现 模型 的 电子 
设备 ， 包 括 CPU、memory 和 I/O 设备 。CPU( 中 央 处 理 器 ， 也 称 处 理 器 ) 执行 操作 系统 中 的 指 
令 ， 完 成 相关 计算 和 读 写 内 存 ， 物 理 内 存 保存 了 操作 系统 中 的 指令 和 需要 处 理 的 数据 ， 外 部 
设备 用 于 实现 操作 系统 的 输入 《键盘 、 硬 盘 ) ， 输 出 〈 显 示 器 、 并 口 、 串 口 ) ， 计 时 (时 
钟 ) 永久 存储 (硬盘) 。 操 作 系 统 除 了 能 在 计算 机 上 运行 外 ， 还 要 管 好 计算 机 。 下 面 将 简要 
介绍 计算 机 硬件 以 及 操作 系统 大 致 要 完成 的 事情 。 


timer/Disk,etc. 





CPU 


CPU 是 计算 机 系统 的 核心 ， 目 前 存在 各 种 8 位 ，16 位 ，32 位 ，64 位 的 CPU， 应 用 在 从 施 入 式 
系统 到 巨型 机 等 不 同 的 场合 中 。CPU 从 一 加 电 开 始 ， 从 某 设 定好 的 内 存 地 址 开始 ， 取 指令 ， 
执行 指令 ， 并 周而复始 地 运行 。 取 指令 的 过 程 即 从 某 寄 存 器 ( 比如， 程序 计数 器 ) 中 获取 一 


个 内 存 地 址 ， 从 这 个 内 存 地 址 中 读 入 指令 ， 执 行 机 器 指令 ， 不 断 重复 ，CPU 运 行 期 间 会 有 分 
支 和 调用 指令 来 修改 程序 计数 器 ， 实 现 地 址 跳 转 ， 否 则 程序 计数 器 就 自动 加 1， 让 CPU 从 下 
一 个 内 存 地 址 单元 取 指 令 ， 并 继续 执行 。 


由 于 CPU 执 行 速度 很 快 (x86 CPU 可 达到 2GHZ 以 上 的 时 钟 频率 ，RISC-V CPU 可 达到 1.5 
GHZ 的 时 钟 频率 ) ， 如 果 当 前 可 以 运行 的 程序 太 少 ， 则 会 出 现 CPU 无 事 可 做 的 情况 ， 导 致 计 
算 机 系统 效率 太 低 。 这 时 就 需要 操作 系统 来 帮忙 了 ， 我 们 需要 操作 系统 除了 能 管理 硬件 外 ， 
还 能 管理 应 用 程序 ， 让 它们 能 够 按 一 定 的 顺序 和 优先 级 来 依次 使 用 CPU， 充 分 发 挥 CPU 的 效 
能 。 操 作 系统 管 一 个 程序 比较 容易 ， 但 如 果 管 理 多 个 程序 的 运行 ， 就 需要 考虑 如 何 分 配 CPU 
资源 的 问题 ， 如 何 避 免 程序 执行 期 间 发 生 “ 冲 突 " 的 问题 等 ， 这 是 操作 系统 需要 完成 的 重要 功能 
之 一 o 
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交换 /分 页 操作 系统 


Disk (虚拟 内 存 ) 


计算 机 中 有 多 种 多 层次 的 存放 数据 和 指令 代码 的 硬件 存储 单元 ， 比 如 在 CPU 内 的 寄存 器 
(register) 、 高 速 缓 存 (cache)、 内 存 (memory) 、 硬 盘 、 磁 带 等 。 寄 存 器 位 于 CPU 内 部 ， 
其 访问 速度 最 快 但 成 本 吕 贵 ， 在 对 于 传 I 指令 集 计 算 机 ， 如 |ntel 80386 处 理 
器 ) 中 一 般 只 有 几 个 到 十 个 左右 的 通用 寄存 器 ， 而 对 于 RISC (精简 指令 集 计 算 机 ， 如 RISC- 
V) ， 则 可 能 有 几 十 个 以 上 通用 寄存 器 ; 高 速 缓存 (cache) 一 般 也 在 CPU 内 部 ，cache 是 内 
存 和 寄存 器 在 速度 和 大 小 上 的 折衷 ， 比 寄存 器 慢 2~10 倍 ， 容 量 也 有 限 ， 量 级 大 约 几 百 KB 到 几 
十 MB 不 等 ; 再 接 下 来 就 是 内 存 了 ， 内 存 位 于 CPU 外 ， 比 寄存 器 慢 10 们 以上， 但 容量 大 ， 目 前 
一 般 以 几 百 兆 B 到 几 百 GB 不 等 ; 硬盘 容量 更 大 ， 但 一 般 比 寄存 器 要 慢 1000 倍 以 上 ， 不 过 掉 电 
后 其 存储 的 数据 不 会 丢失 。 






一 般 计 算 机 和 一 件 3 来 构 


由 于 寄存 器 、cache、 内 存 、 硬 盘 在 读 写 速度 和 容量 上 的 巨大 差异 ， 所 以 需要 操作 系统 来 协调 
数据 的 访问 ， 尽 量 主动 协助 应 用 软件 ， 把 最 近 访 问 的 数据 放 到 寄存 器 或 cache 中 (实际 上 操作 
系统 不 能 直接 控制 cache 的 读 写 ) ， 把 经 常 访问 的 数据 放 在 内 存 中 ， 把 不 常用 的 数据 放 到 硬盘 
上 ， 这 样 可 以 达到 让 多 个 运行 的 应 用 程序 “感觉 "到 它 可 用 使 用 很 大 的 空间 ， 也 可 有 很 快 的 访问 
人 速度。 如 何 让 在 运行 中 的 每 个 程序 都 能 够 得 到 “足够 大 "的 内 存 空间 ， 且 程序 间 相 互 不 能 破坏 对 
方 的 内 存 “ 领 地 ， 且 建立 他 们 之 间 的 “数据 共享 "通道 ， 这 是 操作 系统 需要 完成 的 重要 功能 之 
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CPU 处 理 的 数据 需要 有 来 源 和 输出 ， 这 里 的 来 源 和 输出 就 是 各 种 外 设 ， 如 大 家 日 常 使 用 计算 
机 用 到 的 键盘 、 和 鼠标 、 显 示 器 、 声 卡 、GPU、U 和 瘟 、 硬 盘 、SSD 存 储 、 打 印 机 、 网 卡 、 摄 像 
头等 。 上 图 中 给 出 了 PC 计算 机 的 一 些 外 设 硬 件 。 应 用 程序 如 果 直 接 访问 外 设 ， 会 有 代码 实现 
复杂 ， 可 移植 性 差 ， 无 法 有 效 并 发 等 问题 ， 所 以 操作 系统 给 应 用 程序 提供 了 简单 的 访问 接 
口 ， 让 应 用 程序 不 需要 了 解 硬件 细节 。 具 体 访 问 外 设 的 苦 活 累 活 都 交 给 操作 系统 来 完成 了 ， 
这 就 是 操作 系统 中 外 设 驱动 哦 程序 的 主要 功能 。 


如 果 操 作 系 统 要 通过 CPU 对 数据 进行 加 工 ， 首 先 需要 有 输入 ， 在 处 理 完 后 还 要 进行 输出 ， 和 否 
则 没 东西 要 处 理 或 者 执行 完了 无 法 把 结果 反馈 给 用 户 。 操 作 系统 要 处 理 的 数据 需要 从 外 设 
(比如 键盘 、 事 口 、 硬 盘 、 网 卡 ) 中 获得 ， 这 就 是 一 种 读 外 设 数据 的 操作 ; 且 在 处 理 完毕 后 
要 传 给 外 设 ( 比 如 显示 器 、 硬 盘 、 打 印 机 、 网 卡 ) 进一步 处 理 ， 这 其 实 就 是 一 种 写 外 设 数据 
的 操作 。 


J ，|O 外 设 把 它 的 访问 接口 映射 为 一 块 内 存 区 域 ， a 前 过 来 用 通常 的 内 存 读 写 
令 来 管理 设备 ; AS ， 操 作 系 统 通过 这 些 特定 的 指令 来 完成 
ss 问 。 并 且 操 作 系 统 可 以 通过 轮 循 、 中 断 、DMA 等 访问 方式 来 高 效 地 管理 外 设 。 


比如 ， 在 RISC-V 中 通过 对 特定 地 址 的 内 存 (代表 |O 外 设 的 接口 ) 进行 读 或 写 访 问 ， 就 可 以 实 
现 对 ID 外 设 的 访问 了 。 在 Intel x86 中 有 两 条 特殊 的 in 和 out 指令 来 在 完成 CPU 对 外 设 地 址 
空间 的 访问 ， 实 现 对 外 设 的 管理 控制 。 本 书 不 会 涉及 很 多 复杂 具体 硬件 ， 而 只 涉及 到 操作 系 
统 用 到 的 一 些 最 基本 的 外 设 硬件 (时钟, 串口， 硬盘 ) 细节 。 
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一 般 计 草 机 硬件 架构 
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RISC-V 硬 件 采 构 


通用 CPU 一 般 能 够 在 硬件 上 支持 内 存 空间 的 隔离 ， 使 得 多 个 程序 在 各 自 独立 的 内 存 空间 中 并 
发 执行 。 这 种 硬件 机 制 即 支持 用 户 特权 级 和 内 核 特权 级 。 应 用 程序 运行 在 用 户 特权 级 ， 这 样 
应 用 不 能 执行 特权 指令 ， 且 不 能 破坏 操作 系统 内 核 的 数据 和 操作 系统 执行 过 程 。 而 操作 系统 
内 核 运行 在 内 核 特 权 级 ， 可 以 访问 特权 指令 ， 并 管理 和 控制 应 用 程序 ， 硬 件 外 设 等 。 所 以 对 
于 操作 系统 而 言 ， 需 要 CPU 硬 件 至 少 支持 用 户 特 权 级 和 内 核 特 权 级 (控制 隔离 )， 以 及 内 存 
空间 隔离 (数据 隔离 ) 。 


RISC-V 是 发 源 于 Berkeley 的 开源 instruction set architecture (ISA)。 在 继续 阅读 前 ， 对 RISCV 
间 令 集 和 架构 特别 感 兴趣 的 同学 可 仔细 阅读 RISC-V 的 Specifications。 当 前 用 户 态 指 令 集 规范 
的 版 本 为 2.2， 特 权 态 指令 集 规范 的 版 本 为 1.10。 


e User-Level ISA Specification v2.2 
e Draft Privileged ISA Specification v1.10 


Modular ISA 


RISC-V ISA 是 模块 化 的 ， 它 由 一 个 基本 指令 集 和 一 些 扩展 指令 集 组 成 


e。 Base integer ISAs 
o RV32| 
o RV64| 
o RV128| 
。 Standard extensions 
o M: Integer Multiply 
o A: Atomic Memory Operations 
o F: Single-percison Floating-point 
o D: Double-precision Floating-point 
o G: IMAFD, General Purpose ISA 


举例 来 说 ， RV32IMA 表示 支持 基本 整数 操作 和 原子 操作 的 32 位 RISC-V 指 令 集 。 对 于 一 般 在 用 
户 态 执行 的 应 用 程序 ， 只 需要 上 述 用 户 态 指令 集 就 基本 足够 了 。 但 如 果 是 象 操 作 系 统 这 样 的 
软件 ， 需 要 控制 整个 计算 机 硬件 ， 则 只 使 用 用 户 态 指 令 集 是 不 够 的 ， 还 需要 在 处 于 内 核 特 权 
级 的 CPU 状态 下 执行 特权 指令 集 。 


Privileged ISA 


Software Stacks 


RISC-V 在 设计 时 就 考虑 了 硬件 虚拟 化 的 需求 ， 三 种 典型 RISC-V 系 统 的 结构 如 下 


Application 


ABI 


HBI 





上 图 中 各 个 英文 缩写 对 应 的 全 称 如 下 


。 ABI: Application Binary Interface 
e。 AEE: Application Execution Environment 
e。 SBI: Supervisor Binary Interface 
e。 SEE: Supervisor Execution Environment 
。 HBI: Hypervisor Binary Interface 
。 HEE: Hypervisor Execution Environment 


RISC-V 通 过 各 层 之 间 的 Binary Interface 实 现 了 对 下 一 层 的 抽象 ， 方 便 了 虚拟 机 的 实现 以 及 OS 
在 不 同 RISC-V 架 构 间 的 移植 。 采 用 了 图 中 第 二 种 结构 ，bbl 在 其 中 充当 了 SEE 的 角色 。 


Privilege Levels 


RISC-V 共 有 4 种 不 同 的 特权 级 ， 与 X86 不 同 的 是 ，RISC-V 中 特权 级 对 应 数字 越 小 ， 权 限 越 低 


Level Encoding Name Abbreviation 
0 00 User/Application U 
1 01 Supervisor S 
2 10 Hypervisor H 
3 11 Machine M 


一 个 RISC-V 的 实现 并 不 要 求 同 时 支持 这 四 种 特权 级 ， 可 接受 的 特权 级 组 合 如 下 


Number of Supported 
javals Modes Intended Usage 
1 M Simple embedded systems 
2 M,U Secure embedded systems 
3 M,S,U Systems running Unix-like operating 


systems 


4 M, H, S, U Systems running Type-1 hypervisors 


目前 官方 的 Spike 模 拟 器 只 部 分 实现 了 3 个 特权 级 。 


Control and Status Registers 


RISC-V 中 各 个 特权 级 都 有 单独 的 Control and Status Registers (CSRs)， 其 中 应 当 注 意 的 有 以 
下 几 个 


Name Description 
sstatus Supervisor status register 
sie Supervisor interrupt-enable register 
stvec Supervisor trap handler base address 
sscratch Scratch register for supervisor trap handlers 
sepc Supervisor exception program counter 
scause Supervisor trap cause 
sbadaddr Supervisor bad address 
sip Supervisor interrupt pending 
sptbr Page-table base register 
mstatus Machine status register 
medeleg Machine exception delegation register 
mideleg Machine interrupt delegation register 
mie Machine interrupt-enable register 
mtvec Machine trap-handler base address 
mscratch Scratch register for machine trap handlers 
mepc Machine exception program counter 
mcause Machine trap cause 
mbadaddr Machine bad address 
mip Machine interrupt pending 


在 继续 阅读 前 ， 读 者 应 当 查 阅 Privileged Spec 1.9.1 以 熟悉 以 上 CSR 的 功能 和 用 途 。 
CSR Instructions 
RISC-V ISA 中 提供 了 一 些 修改 CSR 的 原子 操作 ， 下 面 介绍 之 后 常用 到 的 csrrw 指令 


# Atomic Read & Write Bit 
cssrw rd, csr, rs 


语义 上 等 价 的 C++ 函数 如 下 


VonmduEcssrnwtunsndnedantcewrouunmsngnednktencsm unsagned nte res) e 
unsigned int tmp = rs; 
rd = csr; 
csr = tmp， 


几 种 有 趣 的 用 法 如 下 


#* Cer = TS 
cssrw x0, csr, rs 


# csr = 0 
cssrw x0O, csr, x0O 


# rd = csr, csr = 0 
cssrw rd, csr, x0 


# swap rd and csr 
cssrw rd, csr, rd 
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了 解 操 作 不 纪 
我 们 可 以 把 软件 分 成 应 用 软件 和 系统 软件 ， 而 对 于 系统 软件 ， 我 们 又 可 以 分 为 系统 应 用 和 操 


作 系统 。 操 作 系统 是 一 个 大 型 复杂 软件 ， 但 如 果 从 使 用 和 实现 的 抽象 角度 来 看 ， 还 是 可 以 用 
一 些 比较 简洁 的 描述 对 其 定义 、 特 征 等 进行 归纳 总 结 ， 让 读者 有 一 个 比较 宽泛 的 总 体 理 解 。 


应 用 程序 
系统 应 用 


计算 机 硬件 
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在 大 众 的 眼中 ， 操 作 系统 就 是 他 们 的 手机 /终端 上 的 软件 系统 ， 包 括 各 种 应 用 程序 集合 ， 但 在 
历史 上 ， 操 作 系统 也 是 从 无 到 有 地 逐步 发 展 起 来 的 。 操 作 系 统 主 要 完成 对 硬件 控制 和 对 应 用 
程序 的 服务 所 必需 的 功能 ， 操 作 系 统 的 历史 与 计算 机 发 展 的 历史 密 不 可 分 。 操 作 系 统 的 内 涵 
和 功能 随 着 历史 的 发 展 也 在 一 直 变 化 ， 改 进 中 ， 在 今天 ， 没 有 图 形 界 面 和 各 种 文件 浏览 器 已 
经 不 能 称 为 一 个 操作 系统 了 。 


三 叶 虫 时 代 


计算 机 在 最 开始 出 现 的 时 候 是 没有 操作 系统 的 。 启 动 ， 扳 开关 ， 装 卡片 / 纸 带 等 比较 辛苦 的 工 
作 都 是 计算 机 操作 员 (Operator) 或 者 用 户 自己 完成 。 操 作 员 /用 户 带 着 记录 有 程序 和 数据 的 
卡片 (punch card) 或 打 孔 纸 带 去 操作 机 器 。 装 好 卡片 / 纸 带 后 ， 启 动 卡片 / 纸 带 阅读 器 ， 让 计算 
机 把 程序 和 数据 读 入 计算 机 机 的 内 存 中 后 ， 计 算 机 就 开始 工作 ， 并 把 结果 也 输出 到 卡片 / 纸 带 
或 显示 屏 上 ， 最 后 程序 停止 。 


由 于 人 的 操作 效率 太 低 ， 计 算 机 的 机 时 宝贵 ， 所 以 就 引入 监控 程序 (Monitor) 辅助 完成 输 
入 ， 输 出 ， 加 载 ， 运 行程 序 等 工作 ， 这 是 现代 操作 系统 的 起 源 。 一 般 情 况 下 ， 计 算 机 每 次 只 
能 执行 一 个 任务 ，CPU 大 部 分 时 间 都 在 等 待人 的 缓慢 操作 。 


隶 龙 时 代 


Re de da 专用 化 ， 生 产 商 生产 出 针对 各 自 硬件 的 专用 操作 系统 ， 大 部 分 
用 汇编 语言 编写 A ts 化 再 持续 。 在 1964 年 ，IBM 公 司 开 
发 了 面 system/s60 系列 机 器 是 一 种 批 处 理 
操作 系统 。 为 了 能 充分 地 利用 计算 机 系统 ， 应 尽量 使 该 系统 连 续 运 行 ， 减 少 空闲 时 间 ， 所 以 
批 处 理 操作 系统 把 一 批 作业 (古老 的 术语 ， 可 理解 为 现在 的 程序 ) 以 脱 机 方式 输入 到 磁带 

上 ， 并 使 这 批 作业 能 一 个 接 一 个 地 连续 处 理 : 1) 将 磁带 上 的 一 个 作业 装 入 内 存 ; 2) 并 把 运 
行 控 制 权 交 给 该 作业 ; 3) 当 该 作业 处 理 完 成 后 ， 把 控制 权 交 还 给 操作 系统 ; 4) 重复 1-3 的 步 


骤 。 





批 处 理 操 作 系 统 分 为 单 道 批 处 理 系统 和 多 道 批 处 理 系统 。 单 道 批 处 理 操作 系统 只 
中 的 一 个 〈 道 ) 作业 ， 无 法 充分 利用 计算 机 系统 中 的 所 有 资源 ， 致 使 系统 整体 性 能 较 差 。 多 
道 批 处 理 操作 系统 能 管理 内 存 中 的 多 个 ( 道 ) 作业 ， 可 比较 充 re 
资源 ， 提 升 系统 整体 性 能 。 二 者 的 共同 特点 是 人 机 交互 性 差 ， 这 对 修改 和 调试 程序 很 不 方 
便 。 


尺 行 动物 时 代 


20 世 纪 60 年 代 末 ， 提 高 人 机 交互 方式 的 分 时 操作 系统 越 来 越 展 露头 角 。 分 时 是 指 多 个 用 户 和 
多 个 程序 以 很 小 的 时 间 间 隔 来 共享 使 用 同一 台 计 算 机 上 的 CPU 和 其 他 硬件 /软件 资源 。1964 年 
由 贝尔 实验 室 、 麻 省 理工 学 院 及 美国 通用 电气 公司 所 共同 参与 研发 目标 远大 的 
MULTICS(MULTiplexed Information and Computing System) 操 作 系统 ，MULTICS 是 一 套 安 
装 在 大 型 主机 上 多 人 多 任务 的 操作 系统 。 MULTICS 以 兼容 分 时 系统 (CTSS) 做 基础 ， 建 置 
在 美国 通用 电力 公司 的 大 型 机 GE-645， 目 标 是 连接 1000 部 终端 机 ， 支 持 300 的 用 户 同时 上 

线 。 因 MULTICS 项 目的 工作 进度 过 于 缓慢 ，1969 年 AT&T 的 Bell 实验 室 从 MULTICS 研发 中 撤 
出 。 但 贝尔 实验 室 的 两 位 软件 工程 师 Thompson 与 Ritchie 和 借鉴 了 一 些 重要 的 Multics 理 念 ， 以 
C 语 言 为 基础 ， 发 展 出 UNIX 操 作 操 作 系统 。UNIX 操 作 系 统 的 早期 版 本 是 完全 免费 的 ， 可 以 轻 
钨 获得 并 随意 修改 ， 所 以 它 得 到 了 广泛 的 接受 。 后 来 ， 它 成 为 开发 小 型 机 操作 系统 的 起 点 。 
由 于 早期 的 广泛 应 用 ， 它 已 经 成 为 的 分 时 操作 系统 的 典范 。 


哺乳 动物 时 代 


20 世 纪 70 年 代 ， 微 型 处 理 器 的 发 展 使 计算 机 的 应 用 普及 至 中 小 企及 个 人 爱好 者 ， 推 动 了 个 人 
计算 机 (Personal Computer) 的 发 展 ， 也 进一步 推动 了 面向 个 人 使 用 的 操作 系统 的 出 现 。 其 代 
表 是 由 微软 公司 中 在 20 世 纪 80 年 代为 个 人 计算 机 开发 的 DOS/Windows 操 作 系 统 ， 其 特点 是 简 
单 多 用 ， 特 别 是 基于 Windwos 操 作 系 统 的 GUI| 界 面 ， 极 大 地 简化 了 一 般 用 户 使 用 计算 机 的 难 
度 ， 使 得 计算 机 得 到 了 快速 的 普及 。 这 里 需要 注意 的 是 ， 第 一 个 带 GU| 界 面 的 个 人 计算 机 原型 
起 源 于 伟大 却 又 让 人 扼腕 叹息 的 施乐 帕 洛 阿 图 研究 中 心 PARC (Palo Alto Research 

Center) ，PARC 研 发 出 的 带 有 图 标 、 弹 出 式 菜单 和 重 县 窗口 的 GUI| (Graphical User 
Interface) ， 可 利用 鼠标 的 点 击 动作 来 进行 操控 ， 这 是 当今 我 们 所 使 用 的 GUI 系统 的 基础 。 


智 人 时 代 


21 世 纪 以 来 ，|nternt 和 移动 互联 网 的 迅猛 发 展 ， 使 得 在 服务 器 领域 和 个 人 终端 的 应 用 与 需求 
大 增 。iOS 和 Android 操 作 系 统 是 21 世 纪 个 人 终端 操作 系统 的 代表 ，Linux 在 巨型 机 到 数据 中 心 
服务 器 操作 系统 中 占据 了 统治 地 位 。 以 Android 系 统 为 例 ，Android 一 词 英文 本 义 指 “机 器 人 ”， 
它 是 由 Google 公 司 于 2007 年 11 月 推出 的 基于 Linux Kernel 的 开源 手机 操作 系统 ， 目 前 在 移动 
终端 中 占有 最 大 的 份额 。Android 操 作 系 统 是 一 个 包括 Linux 操 作 系 统 内 核 、 基 于 Java 的 中 间 
件 、 用 户 界面 和 关键 应 用 软件 的 移动 设备 软件 栈 集合 。 这 里 介绍 一 下 广泛 用 在 服务 器 领域 和 
个 人 终端 中 的 操作 系统 内 核 --Linux 操 作 系 统 内 核 。1991 年 8 月 ， 芬兰 学 生 Linus Torvalds( 林 
纳 斯 . 托 瓦 兹 ) 在 comp.os.minix 新 闻 组 贴 上 了 以 下 这 段 话 : 


”你 好 ， 所 有 使 用 minix 的 人 -我 正在 为 386 ( 486 ) AT 做 一 个 免费 的 操作 系统 ( 只 是 为 了 爱好 )， 不 
会 像 GNU 那样 很 大 很 专业 。" 


而 他 所 说 的 ”爱好 "就 变 成 我 们 今天 知道 的 Linux 操 作 系统 内 核 。Linus 通 过 Internet 首 次 发 表 
Linux kernel| 的 源 代码 ， 并 且 选 用 GPL 版 权 协 议 来 发 行 。GPL 版 权 协 议 允 许 任何 人 以 任何 形式 
发 布 Linux 的 源 代码 ， 在 Internet 的 日 渐 盛 行 以 及 Linux 开放 自由 ee ， 吸引 了 无 
数 计 算 机 Hacker 和 公司 投入 开发 、 改 善 Linux kernel， 使 得 Linux kernel 的 功能 日 见 强大 。 


神 人 时 代 


当前 ， 大 数据 、 人 工 智 能 、 机 器 学 习 、 高 速 网 络 、AR/VR 对 操作 系统 等 系统 软件 带 来 了 新 的 
挑战 。 如 何 有 效 支 持 和 利用 这 些 技术 是 未 来 操作 系统 的 方向 。 


操作 系统 的 定义 与 目标 


操作 系统 的 定义 


有 了 对 硬件 的 进一步 了 解 ， 我 们 就 可 以 给 操作 系统 下 一 个 更 准确 一 些 的 定义 。 操 作 系 统 是 计 
算 机 系统 机 构 中 的 一 个 系统 软件 ， 它 的 职能 主要 有 两 个 : 对 下 面 (也 就 是 计算 机 硬件 ) ， 有 
效 地 组 织 和 管理 计算 机 系统 中 的 硬件 资源 (包括 处 理 器 、 内 存 、 硬 盘 、 显 示 器 、 键 盘 、 息 标 
等 名 种 外 设 ) ; 对 上 面 (应 用 程序 或 用 户 ) ， 提 供 简 洁 的 服务 功能 接口 ， 屏 蔽 硬件 管理 带 来 
的 差异 性 和 复杂 性 ， 使 得 应 用 程序 和 用 户 能 够 灵活 、 方 便 、 有 效 地 使 用 计算 机 。 为 了 完成 这 
两 个 职能 ， 操 作 系 统 需要 起 到 资源 管理 器 的 作用 ， 能 在 其 内 部 实现 中 安全 ， 合 理 地 组 织 ， 分 
配 ， 使 用 与 处 理 计算 机 中 的 软 硬 件 资源 ， 使 整个 计算 机 系统 能 高 效 可 靠 地 运行 。 


操作 系统 的 目标 


根据 前 面 的 介绍 ， 我 们 可 以 看 出 操作 系统 有 如 下 一 些 目标 : 


。 建立 抽象 ， 让 上 层 软 件 和 用 户 更 方便 使 用 ; 
。 管理 软 硬 件 资源 ， 确 保 计算 机 系统 安全 可 靠 、 高 性 能 ; 
。 其 他 需求 : 节能 、 易 用 、 可 移植 、 实 时 等 等 


操作 系统 的 接口 


首先 ， 读 者 可 站 在 使 用 操作 系统 的 角度 来 看 操作 系统 。 操 作 系 统 内 核 是 一 个 需要 提供 各 种 服 
务 的 软件 ， 其 服务 对 象 是 应 用 程序 ， 而 用 户 (这 里 可 以 理解 为 一 般 使 用 计算 机 的 人 ) 是 通过 

应 用 程序 的 服务 间接 获得 操作 系统 的 服务 的 ) ， 所 以 操作 系统 内 核 藏 在 一 般 用 户 看 不 到 的 地 

方 。 但 应 用 程序 需要 访问 操作 系统 ， 获 得 操作 系统 的 服务 ， 这 就 需要 通过 操作 系统 的 接口 才 

能 完成 。 如 果 把 操作 系统 看 成 是 一 个 函数 库 ， 那 么 其 接口 就 是 函数 名 称 和 它 的 参数 。 但 操作 

系统 不 是 简单 的 一 个 函数 库 ， 它 的 接口 需要 考虑 安全 因素 ， 使 得 应 用 软件 不 能 直接 读 写 操作 

系统 内 部 函数 的 地 址 地 址 空间 ， 为 此 ， 操 作 系 统 设计 了 一 个 安全 可 靠 的 接口 ， 我 们 称 为 系统 

调用 接口 (System Call Interface) ， 应 用 程序 可 以 通过 系统 调用 接口 请 求 获得 操作 系统 的 服 
务 ， 但 不 能 直接 调用 操作 系统 的 函数 和 全 局 变量 ; 操作 系统 提供 完 服务 后 ， 返 回应 用 程序 继 

续 执行 。 


对 于 实际 操作 系统 而 言 ， 有 具有 大 量 的 服务 接口 ， 比 如 Linux 有 上 百 个 系统 调用 接口 。 为 了 简单 
起 见 ， 以 Ucore OS 为 例 ， 可 以 看 到 它 为 应 用 程序 提供 了 如 下 一 些 接口 : 


e@ 进程 管理 : 复制 创建 --fork、 退 出 --exit、 执 行 --exec、.… 
e 同步 互 斥 的 并 发 控制 : 信号 量 --semaphore、 管 程 --monitor、 条 件 变 量 --condition 
variable 、... 


。 进程 间 通 信 : 管道 --pipe、 信 号 --signal、 事 件 --event、 邮 箱 --mailbox、 共 享 内 存 --shared 


mem、.… 
。 文件 MO 操作 : 读 --read、 写 --write、 打 开 --open、 关 闭 --close、.… 
e@ 外 设 1/O 操 作 : 外 设 包 括 键 盘 、 显 示 器 、 串 口 、 磁 盘 、 时 钟 、...， 但 接口 是 直接 采用 了 文 


件 MO 操 作 的 系统 调用 接口 
这 在 某 种 程度 上 说 明了 文件 是 外 设 的 一 种 抽象。 在 UNIX 中 (Ucore 是 模仿 UNIX) ， 大 部 
分 外 设 都 可 以 以 文件 的 形式 来 访问 
有 了 这 些 接口 ， 简 单 的 应 用 程序 就 不 用 考虑 底层 硬件 细节 ， 可 以 在 操作 系统 的 服务 支持 和 管 
理 下 简洁 地 完成 其 应 用 功能 了 。 


操作 系统 的 接口 








信号 文件 管理 系统 CPU 调度 
字符 设备 IO 块 设备 IO 虚拟 内 存 管理 
串口 驱动 磁盘 驱动 物理 内 存 管理 










对 叶 









串口 控制 器 
终端 设备 


块 设备 控制 器 
磁盘 和 磁带 


存储 控制 器 
物理 内 存 
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操作 系统 抽检 


接 下 来 读者 可 站 在 操作 系统 实现 的 角度 来 看 操作 系统 。 操 作 系 统 为 了 能 够 更 好 地 管理 计算 机 
系统 并 对 应 用 程序 提供 便捷 的 服务 ， 在 操作 系统 的 发 展 过 程 中 ， 计 和 草 机 科学 家 提出 了 如 下 四 
个 个 抽象 概念 ， 黄 定 了 操作 系统 内 核 设计 与 实现 的 基础 。 操 作 系 统 原理 中 的 其 他 基本 概念 基 
本 上 都 基于 上 述 这 四 个 操作 系统 抽象 。 


中 断 (Interrupt) 


简单 地 说 ， 中 断 是 处 理 器 在 执行 过 程 中 的 突变 ， 用 来 响应 处 理 器 状态 中 的 特殊 变化 。 比 如 当 
应 用 程序 正在 执行 时 ， 产 生 了 时 钟 外 设 中 断 ， 导 致 操作 系统 打 断 当前 应 用 程序 的 执行 ， 转 而 
去 处 理 时 钟 外 设 中 断 ， 处 理 完毕 后 ， 再 回 到 应 用 程序 被 打 断 的 地 方 继续 执行 。 在 操作 系统 

中 ， 有 三 类 中 断 : 外 设 中 断 (Device Interrupt) 、 陷 阱 中 断 (Trap Interrupt) 和 故障 中 断 
(Fault Interrupt， 也 称 为 exception， 异 常 ) 。 外 设 中 断 由 外 部 设备 引起 的 外 部 MO 事件 如 时 钟 
中 断 、 控 制 台中 断 等 。 外 设 中 断 是 异步 产生 的 ， 与 处 理 器 的 执行 无 关 。 故 障 中 断 是 在 处 理 器 
执行 指令 期 间 检 测 到 不 正常 的 或 非法 的 内 部 事件 (如 除 零 错 、 地 址 访问 越界 ) 。 陷 阱 中 断 是 
在 程序 中 使 用 请 求 操作 系统 服务 的 系统 调用 而 引发 的 有 意 事件 。 在 后 面 的 叙述 中 ， 如 果 没 有 
特别 指出 ， 我 们 将 用 简称 中 断 、 陷 阱 、 故 障 来 区 分 这 三 种 特殊 的 中 断 事 件 ， 在 不 需要 区 分 的 
地 方 ， 统 一 用 中 断 表示 。 


进程 (Process ) 


简单 地 说 ， 进 程 是 一 个 正在 运行 的 程序 。 在 计算 机 系统 中 ， 我 们 可 以 “同时 ”运行 多 个 程序 ， 这 
个 “同时 ”， 其 实 是 操作 系统 给 用 户 造 成 的 一 个 “幻觉 ”。 大 家 知道 ， 处 理 器 是 计算 机 系统 中 的 硬 
件 资源 。 为 了 提高 处 理 器 的 利用 率 ， 操 作 系 统 采 用 了 多 道 程序 技术 。 如 果 一 个 程序 因 茶 个 事 
件 而 不 能 运行 下 去 时 ， 就 把 处 理 器 占用 权 转 交 给 另 一 个 可 运行 程序 。 为 了 刻画 多 道 程序 的 并 
发 执行 的 过 程 ， 就 要 引入 进程 的 概念 。 从 操作 系统 原理 上 看 ， 一 个 进程 是 一 个 具有 一 定 独立 
功能 的 程序 在 一 个 数据 集合 上 的 一 次 动态 执行 过 程 。 操 作 系 统 中 的 进程 管理 需要 协调 多 道 程 
序 之 间 的 关系 ， 解 决 对 处 理 器 分 配 调度 策略 、 分 配 实施 和 回收 等 问题 ， 从 而 使 得 处 理 器 资源 
得 到 最 充分 的 利用 。 


虚 存 (Virtual Memory ) 


简单 地 说 ， 虚 存 就 是 操作 系统 通过 处 理 器 中 的 MMU 硬 件 的 支持 而 给 应 用 程序 和 用 户 提 供 一 个 
大 的 (超过 计算 机 中 的 内 存 条 容量 ) 、 一 致 的 (连续 的 地 址 空间 ) 、 私 有 的 (其 他 应 用 程序 
无 法 破坏 ) 的 存储 空间 。 这 需要 操作 系统 将 内 存 和 硬盘 结合 起 来 管理 ， 为 用 户 提供 一 个 容量 


比 实际 内 存 大 得 多 的 虚拟 存储 器 ， 并 且 需 要 操作 系统 为 应 用 程序 分 配 内 存 空间 ， 使 用 户 存放 
在 内 存 中 的 程序 和 数据 咎 此 隔离 、 互 不 侵扰 。 操 作 系 统 中 的 虚 存 管理 与 处 理 器 的 MMU 密 切 相 
关 。 


文件 (File) 


简单 地 说 ， 文 件 就 是 存放 在 持久 存储 介质 (比如 硬盘 、 光 盘 、U 盘 等 ) 上 ， 方 便 应 用 程序 和 用 
户 读 写 的 数据 。 当 处 理 器 需要 访问 文件 中 的 数据 时 ， 可 通过 操作 系统 把 它们 装 入 内 存 。 放 在 
硬盘 上 的 程序 也 是 一 种 文件 。 文 件 管理 的 任务 是 有 效 地 支持 文件 的 存储 、 检 索 和 修改 等 操 
作 。 


操作 系统 特征 


基于 操作 系统 的 四 个 抽象 ， 我 们 可 以 看 出 ， 从 总 体 上 看 ， 操 作 系 统 具 有 五 个 方面 的 特征 : 虚 
拟 性 (Virtualization ) 、 并 发 性 (concurrency) 、 异 步 性 、 共 享 性 和 持久 性 

(persistency) 。 在 虚拟 性 方面 ， 可 以 从 操作 系统 对 内 存 ，CPU 的 抽象 和 处 理 上 有 更 好 的 理 
解 ; 对 于 并 发 性 和 共享 性 方面 ， 可 以 从 操作 系统 支持 多 个 应 用 程序 "同时 "运行 的 情况 来 理解 ; 
对 于 异步 性 ， 可 以 从 操作 系统 调度 ， 中 断 处 理 对 应 用 程序 执行 造成 的 影响 等 几 个 放 马 来 理 
解 ; 对 于 持久 性 方面 ， 可 以 从 操作 系统 中 的 文件 系统 支持 把 数据 方便 地 从 磁 瘟 等 存储 介质 上 
存 入 和 取出 来 理解 。 


虚拟 性 
内 存 虚 拟 化 


首先 来 看 看 内 存 的 虚拟 化 。 程 序 员 在 写 应 用 程序 的 时 候 ， 不 用 考虑 其 程序 的 起 始 内 存 地 址 要 
放 到 计算 机 内 存 的 具体 菜 个 位 置 ， 而 是 用 字符 串 符号 定义 了 各 种 变量 和 元 数 ， 直 接 在 代码 中 
便捷 地 使 用 这 些 符号 就 行 了 。 这 是 由 于 操作 系统 建立 了 一 个 地 址 固定 ， 空 间 巨 大 的 虚拟 内 存 
给 应 用 程序 来 运行 ， 这 是 空间 虚拟 化 。 这 里 的 每 个 符号 在 运行 时 是 要 对 应 到 具体 的 内 存 地 址 
的 。 这 些 内 存 地 址 的 具体 数值 是 什么 ? 程序 员 不 用 关心 。 为 什么 ? 因为 编译 器 会 自动 帮 我 们 
吧 这 些 符号 翻译 成 地 址 ， 形 成 可 执行 程序 。 程 序 使 用 的 内 存 是 否 占 得 太 大 了 ? 在 一 般 情况 
下 ， 程 序 员 也 不 用 关心 。 


操作 系统 的 特征 


还 记得 虚拟 地 址 (逻辑 地 址 ) 的 描述 吗 ? 

但 编译 器 (compiler， 比 如 gcc) 和 链接 器 (linker， 比 如 ld) 也 不 知道 程序 每 个 符号 对 应 的 
地 址 应 该 放 在 未 来 程序 运行 时 的 哪个 物理 内 存 地 址 中 。 所 以 ， 编 译 器 的 一 个 简单 处 理 办 

法 就 是 ， 设 定 一 个 国定 地 址 (比如 0x10000) 作为 起 始 地 址 ， 开 始 存 放 代 码 ， 代 码 之 后 
是 数据 ， 所 有 变量 和 函数 的 符号 都 在 这 个 起 始 地 址 之 后 的 某 个 国定 偏 移 位 置 。 假 定 程序 
每 次 运行 都 是 位 于 一 个 不 会 变化 的 起 始 地 址 。 

这 里 的 变量 指 的 是 全 局 变量 ， 其 地 址 在 编译 链接 后 会 确定 不 变 。 但 局 部 变量 是 放 在 堆栈 
中 的 ， 会 随 着 堆栈 大 小 的 动态 变化 而 变化 。 

这 里 编译 器 产生 的 地 址 就 是 虚拟 地 址 。 

这 里 ， 编 译 器 和 链接 器 图 省 事 ， 找 了 一 个 适合 它们 的 解决 办 法 。 当 程序 要 运行 的 时 候 ， 

这 个 符号 到 机 器 物理 内 存 的 映射 必须 要 解决 了 ， 这 自然 就 推 到 了 操作 系统 身上 。 操 作 系 

统 会 把 编译 器 和 链接 器 生成 的 执行 代码 和 数据 放 到 物理 内 存 中 的 空闲 区 域 中 ， 并 建立 虚 

拟 地 址 到 物理 地 址 的 映射 关系 。 由 于 物理 内 存 中 的 空闲 区 域 是 动态 变化 的 ， 这 也 导致 庶 

拟 地 址 到 物理 地 址 的 映射 关系 是 动态 变化 的 ， 需 要 操作 系统 来 维护 好 可 变 的 映射 关系 ， 

确保 编译 器 “固定 起 始 地 址 ”的 假设 成 立 。 只 有 操作 系统 维护 好 了 这 个 映射 关系 ， 才 能 让 程 
序 员 只 需 写 一 些 易于 人 理解 的 字符 串 符号 来 代表 一 个 内 存 空 间 地 址 ， 且 编译 器 只 需 确定 
一 个 国定 地 址 作为 程序 的 起 始 地 址 就 可 以 生成 一 个 不 用 考虑 将 来 这 个 程序 要 在 哪里 运行 
的 问题 ， 从 而 实现 了 空间 虚拟 化 。 


应 用 程序 在 运行 时 不 用 考虑 当前 物理 内 存 是 否 够 用 。 如 果 应 用 程序 需要 一 定 空间 的 内 存 ， 但 
由 于 在 某 些 情况 下 ， 物 理 内 存 的 空闲 空间 可 能 不 多 了 ， 这 时 操作 系统 通过 把 物理 内 存 中 最 近 
没 使 用 的 空间 〈 不 是 空闲 的 ， 只 是 最 近 用 得 少 ) 换 出 (就 是 “ 挪 地 ”") 到 硬盘 上 暂时 缓存 起 来 ， 
这 样 空闲 空间 就 大 了 ， 就 可 以 满足 应 用 程序 的 运行 时 内 存 需 求 了 ， 从 而 实现 了 空间 大 小 虚拟 
化 。 


CPU 虚拟 化 


再 来 看 CPU 诬 拟 化 。 不 同 的 应 用 程序 可 以 在 内 存 中 并 发 运行 ， 相 同 的 应 用 程序 也 可 有 多 个 找 
贝 在 内 存 中 并 发 运行 。 而 每 个 程序 都 “认为 "自己 完全 独占 了 CPU 在 运行 ， 这 是 ”时 间 虚 拟 化 “。 
这 其 实 也 是 操作 系统 给 了 运行 的 应 用 程序 一 个 虚拟 幻象 。 其 实 是 操作 系统 把 时 间 分 成 小 段 ， 

每 个 应 用 程序 占用 其 中 一 小 段 时 间 片 运行 ， 用 完 这 一 时 间 片 后 ， 操 作 系 统 会 切换 到 另外 一 个 
应 用 程序 ， 让 它 运行 。 由 于 时 间 片 很 短 ， 操 作 系 统 的 切换 开销 也 很 小 ， 人 有 眼 基本 上 是 看 不 出 
的 ， 反 而 感觉 到 多 个 程序 各 自在 独立 ”并行 “ 执 行 ， 从 而 实现 了 时 间 虚 拟 化 。 


并 行 (Parallel) 是 指 两 个 或 者 多 个 事件 在 同一 时 刻 发 生 ; 而 并 发 (Concurrent) 是 指 两 
个 或 多 个 事件 在 同一 时 间 间 隔 内 发 生 。 

对 于 单 CPU 的 计算 机 而 言 ， 各 个 "同时 “运行 的 程序 其 实 是 串 行 分 时 复 用 一 个 CPU， 任 一 
个 时 刻 点 上 只 有 一 个 程序 在 CPU 上 运行 。 

这 些 虚 拟 性 的 特征 给 应 用 程序 的 开发 和 执行 提供 了 非常 方便 的 环境 ， 但 也 给 操作 系统 的 
设计 与 实现 提出 了 很 多 挑战 。 
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并 发 性 


操作 系统 为 了 能 够 让 CPU 充分 地 忙 起 来 并 充分 利用 各 种 资源 ， 就 需要 给 很 多 任务 给 它 去 完 

成 。 这 些 任务 是 分 时 完成 的 ， 有 操作 系统 来 完成 各 个 应 用 在 运行 时 的 任务 切换 。 并 发 性 虽然 
能 有 效 改善 系统 资源 的 利用 率 ， 但 并 发 性 也 带 来 了 对 共享 资源 的 争夺 问题 ， 即 同步 互 斥 问 

题 ; 执行 时 间 的 不 确定 性 问题 ， 即 并 发 程序 在 执行 中 是 走 走 停 停 ， 断 续 推 进 的 。 并 发 性 对 操 
作 系 统 的 设计 也 带 来 了 很 多 挑战 ， 一 不 小 心 就 会 出 现 程 序 执行 结果 不 确定 ， 程 序 死 锁 等 很 难 
调试 和 重 现 的 问题 。 


异步 性 


在 这 里 ， 异 步 是 指 由 于 操作 系统 的 调度 和 中 断 等 ， 会 不 时 地 暂停 或 打 断 当前 正在 运行 的 程 
序 ， 使 得 程序 的 整个 运行 过 程 走 走 停 停 。 在 应 用 程序 运行 的 表现 上 ， 特 别 它 的 执行 完成 时 间 
是 不 可 预测 的 。 但 需要 注意 ， 只 要 应 用 程序 的 输入 是 一 致 的 ， 那 么 它 的 输出 结果 应 该 是 符合 
预期 的 。 


共享 性 


共享 是 指 多 个 应 用 并 发 运行 时 ， 宏 观 上 体现 出 它们 可 同时 访问 同一 个 资源 ， 即 这 个 资源 可 被 
共享 。 但 其 实在 微观 上 ， 操 作 系统 在 硬件 等 的 支持 下 要 确保 应 用 程序 互 矿 或 交替 访问 这 个 共 
享 的 资源 。 上 比如 两 个 应 用 同时 写 访 问 同一 个 内 存单 元 ， 从 宏观 的 应 用 层面 上 看 ， 二 者 都 能 正 
确 地 读 出 同一 个 内 存单 元 的 内 容 。 而 在 微观 上 ， 操 作 系 统 会 调度 应 用 程序 的 先后 执行 顺序 ， 
在 数据 总 线 上 任何 一 个 时 刻 ， 只 有 一 个 应 用 去 访问 存储 单元 。 


持久 性 


操作 系统 提供 了 文件 系统 来 从 可 持久 保存 的 存储 介质 (硬盘 ，SSD 等 ， 以 后 以 硬盘 来 代表 ) 
中 取 数 据 和 代码 到 内 存 中 ， 并 可 以 把 内 存 中 的 数据 写 回 到 硬盘 上 。 硬 盘 在 这 里 是 外 设 ， 具 有 
持久 性 ， 以 文件 系统 的 形式 呈现 给 应 用 程序 。 


文件 系统 也 可 看 成 是 操作 系统 对 硬盘 的 虚拟 化 

这 种 持久 性 的 特征 进一步 带 来 了 共享 属性 ， 即 在 文件 系统 中 的 文件 可 以 被 多 个 运行 的 程 
序 所 访问 ， 从 而 给 应 用 程序 之 间 实 现 数据 共享 提供 了 方便 。 即 使 掉 电 ， 磁 盘 上 的 数据 还 
不 会 丢失 ， 可 以 在 下 一 次 机 器 加 电 后 提供 给 运行 的 程序 使 用 。 持 久 性 对 操作 系统 的 执行 
效 举 提出 了 挑战 ， 如 何 让 数据 在 高 速 的 内 存 和 慢 速 的 硬盘 间 高 效 流动 是 需要 操作 系统 考 
虑 的 问题 。 


操作 系统 的 特征 
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“及 稚 4*“OS--uCore 


为 了 学 习 OS， 需 要 了 解 一 个 上 百 万 代码 的 操作 系统 吗 ? 自己 写 一 个 操作 系统 难 吗 ? 别 被 现在 
上 百 万 行 的 Linux 和 Windows 操 作 系 统 吓 倒 。 当 年 Thompson 乘 他 老婆 带 着 小 孩 度假 留 他 一 人 
在 家 时 ， 写 了 UNIX ; 当年 Linus 还 是 一 个 21 岁 大 学 生 时 完成 了 Linux 锥 形 。 站 在 这 些 巨 人 的 户 
膀 上 ， 我 们 能 否 也 尝试 一 下 做 “巨人 "的 滋味 呢 ? 


MIT 的 Frans Kaashoek 等 在 2006 年 参考 PDP-11 上 的 UNIX Version 6 写 了 一 个 可 在 X86 上 跑 的 
操作 系统 xv6 (基于 MIT License) ， 用 于 学 生 学 习 操 作 系统 。 我 们 可 以 站 在 他 们 的 肩膀 上 ， 
基于 xv6 的 设计 ， 党 试 着 一 步 一 Co “五 脏 俱全 ”的 “ 麻 管 "操作 系统 一 
ucore， 此 “ 麻 惟 "包含 虚 存 管理 、 进 程 管理 、 处 理 器 、 同 步 互 斥 、 进 程 间 通信 、 0 
等 主要 内 核 功 能 ， 总 的 内 核 代码 量 (Ctasm ) 2 vn 充分 体现 了 "小 而 全 "的 指 :4 


相 。 
人 心 


Ucore 的 运行 环境 可 以 是 站 实 的 X86 计算 机 ， 不 过 考虑 到 调试 和 开发 的 方便 ， 我 们 可 采用 X86 
模拟 器 ， 比 如 QEMU、 BOCHS 等 ， 或 X86 虚拟 运行 环境 ， 比 如 VirtualBox、VMware Player 
等 。Ucore 的 开发 环境 主要 是 GCC 中 的 gcc、gas、Id 和 MAKE 等 工具 ， 也 可 采用 集成 了 这 些 工 
具 的 IDE 开 发 环境 Eclipse-CDT。 运行 环境 和 开发 环境 既 可 以 在 Linux 或 Windows 中 使 用 。 


Ucore 简介 


Ucore 目 前 支持 的 硬件 环境 是 基于 lntel 80386 以 上 的 计算 机 系统 。 更 多 的 硬件 相关 内 容 (比如 
保护 模式 等 ) 将 随 着 实现 ucore 的 过 程 逐 渐 展 开 介 绍 。 那 我 们 准备 如 何 一 步 一 步 实 现 Ucore 
呢 ? 安装 一 个 操作 系统 的 开发 过 程 ， 我 们 可 以 有 如 下 的 开发 步骤 : 


1. 


bootloader+toy ucore : 理解 操作 系统 启动 前 的 硬件 状态 和 要 做 的 准备 工作 ， 了 解 运行 操 
作 系 统 的 外 设 硬件 支持 ， 操 作 系 统 如 何 加 载 到 内 存 中 ， 理 解 两 类 中 断 --“ 外 设 中 断 ”， “陷阱 
中 断 ”， 内 核 态 和 用 户 态 的 区 别 ; 

物理 内 存 管理 : 理解 X86 分 段 /分 页 模式 ， 了 解 操 作 系统 如 何 管理 物理 内 存 ; 


3， 虚拟 内 存 管 理 : 理解 OS 虚 存 的 基本 原理 和 目标 ， 以 及 如 何 结 合 页 表 + 中 断 处 理 ( 缺 页 故 


障 处 理 ) 来 实现 虚 存 的 目标 ， 如 何 实现 基于 页 的 内 存 替 换算 法 和 替换 过 程 ; 

内 核 线 程 管理 : 理解 内 核 线程 创建 、 执 行 、 切 换 和 结束 的 动态 管理 过 程 ， 以 及 内 核 线程 
的 运行 周期 等 ; 

用 户 进程 管理 : 理解 用 户 进程 创 建 、 执 行 、 切 换 和 结束 的 动态 管理 过 程 ， 以 及 在 用 户 态 
通过 系统 调用 得 到 内 核 中 各 种 服务 的 过 程 ; 


. 处 理 器 调度 : 理解 操作 系统 的 调度 过 程 和 调度 算法 ; 
， 同 步 互 斥 与 进程 间 通 信 : 理解 同步 互 斥 的 具体 实现 以 及 对 系统 性 能 的 影响 ， 研 究 死 锁 产 


生 的 原因 ， 如 何 避 免 死 锁 ， 以 及 线程 /进程 间 如 何 进行 信息 交换 和 共享 ; 


， 文件 系统 : ss 与 进程 管理 和 内 存 管理 等 的 关系 ， 缓 存 对 操作 系 


统 IO 访 问 的 性 能 ， 虚拟 文件 系统 (VFS) 、buffer cache 和 disk driver 之 间 的 关系 。 


其 中 每 个 开发 步骤 都 是 建立 在 上 一 个 步骤 之 上 的 ， 就 像 搭 积木 ， 从 一 个 一 个 小 木 块 ， 最 终 搭 
出 来 一 个 小 房子 。 在 搭 房子 的 过 程 中 ， 完 成 从 理解 操作 系统 原理 到 实践 操作 系统 设计 与 实现 
的 探索 过 程 。 这 个 房子 最 终 的 建筑 架构 和 建设 进度 如 下 图 所 示 


( ! 可 进一步 标注 处 各 个 proj 在 下 图 中 的 位 置 


大 


Ucore 简介 


实验 进度 颜色 图 





各 种 用 户 态 应 用 和 测试 用 例 
| 用 户 态 丁 数 库 
系统 调用 接口 
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本 章 比 较 概要 地 介绍 了 操作 系统 运行 的 计算 机 硬件 架构 ， 包 括 CPU、 内 存 和 外 设 ， 并 对 操作 
系统 的 历史 发 展 、 定 义 、 目 标 、 接 口 、 抽 象 和 特征 等 进行 了 阅 述 。 最 后 简要 介绍 了 课程 实验 
用 到 的 Ucore 操 作 系 统 。 


启动 操作 系统 


用 一 句 话 描述 本 章 


站 在 操作 系统 的 最 底层 ， 了 解 操 作 系 统 的 启动 ， 与 物理 硬件 : CPU， 内 存 和 多 种 外 设 实现 “ 零 
距离 "接触 ， 看 到 它们 并 管理 它们 ! 


本 章 收 获 的 知识 


。 与 操作 系统 原理 相关 
o 1/O 设 备 管理 : 涉及 程序 循环 检测 方式 和 中 断 启 动 方 式 、1/O 地 址 空间 
o 内 存 管理 : 基于 分 段 机 制 的 内 存 管理 
o 异常 处 理 : 涉及 中 断 、 故 障 和 陷阱 
o 特权 级 : 内 核 态 和 用 户 态 
。 计算 机 系统 和 编程 
o 硬件 
mm PC 从 加 电 到 加 载 操作 系统 内 核 的 整个 过 程 
mn OS 内 核 在 内 存 中 的 布局 
mm 并 口 访问 、 串 口 访问 、CGA 字 符 显示 、 硬 盘 数 据 访 问 、 时 钟 访问 
o 软件 
m ELF 执 行文 件 格 式 
@ 栈 的 实现 并 实现 函数 调用 栈 跟踪 有 函数 
@ 调试 操作 系统 


本 章 涉及 的 实验 
读者 通过 阅读 本 章 的 内 容 并 动手 实践 相关 的 6 个 实验 项 目 : 


e。 proj1 : 能 够 切换 到 保护 模式 并 显示 字符 的 bootloader 

e。 proj2/3 : 可 读 ELF 格 式 文件 的 bootloader 和 显示 字符 的 ucore 
e proj3.1 : 内 置 监控 自身 运行 状态 的 ucore 

。 proj4 : 可 管理 中 断 和 处 理 基 于 中 断 的 键盘 /时 钟 的 ucore 

e proj4.1.1 : 支持 通过 中 断 方式 的 内 核 态 /用 户 态 切 换 的 ucore 


本 章 概述 


其 实 这 一 章 的 内 容 与 操作 系统 原理 相关 的 部 分 较 少 ， 与 计算 机 体系 结构 (特别 是 x86) 的 细节 
相关 的 部 分 较 多 。 但 这 些 内 容 对 写 一 个 操作 系统 关系 较 大 ， 要 知道 操作 系统 是 直接 与 硬件 打 
交道 的 软件 ， 所 以 它 需要 “知道 "需要 硬件 细节 ， 才 能 更 好 地 控制 硬件 。 另 一 方面 ， 部 分 内 容 涉 
及 到 操作 系统 的 重要 抽象 -中断 类 异常 ， 能 够 充分 理解 中 断 类 异常 为 以 后 进一步 了 解 进程 切 
换 、 上 下 文 切换 等 概念 会 很 有 帮助 。 


本 章 的 实验 内 容 涉及 的 是 写 一 个 bootloader 能 够 启动 一 个 操作 系统 --ucore。 在 完成 bootloader 
的 过 程 中 ， 和 逐渐 增加 bootloader 和 ucore 的 能 力 ， 涉 及 X86 处 理 器 的 保护 模式 切换 、 解 析 ELF 执 
行文 件 格式 等 ， 这 对 于 理解 操作 系统 的 加 载 过 程 以 及 在 操作 系统 在 内 存 中 的 位 置 、 内 存 管 

理 、 用 户 态 与 内 核 态 的 区 别 等 有 帮助 。 而 相关 project 中 bootloader 和 操作 系统 本 身 的 字符 显示 
的 MO 处 理 、 读 硬 瘟 数据 的 ID 处 理 、 键 盘 / 时 钟 的 中 断 处 理 等 内 容 ， 则 是 操作 系统 原理 中 一 般 
在 靠 后 位 置 提 到 的 设备 管理 的 实际 体现 。 纵 观 操作 系统 的 发 展 史 ， 从 早期 到 现在 的 操作 系统 
主要 功能 之 一 就 是 完成 繁琐 的 MO 处 理 ， 给 上 层 应 用 提供 比较 简洁 的 MO 服务 ， 屏 蔽 硬件 处 理 的 
复杂 性 。 这 也 是 操作 系统 的 虚拟 机 功能 的 体现 。 另 外 ， 本 章 还 介绍 了 对 硬件 模拟 器 的 使 用 ， 
对 操作 系统 的 panic 处 理 和 远程 debug 功 能 的 支持 ， 这 样 有 助 于 读者 能 够 方便 地 分 析 操 作 系 统 
中 的 错误 和 调试 操作 系统 。 由 于 本 章 涉 及 的 硬件 知识 较 多 ， 无 疑 增 大 了 读者 的 阅读 难度 ， 需 
要 读者 在 结合 阅读 本 章 并 实际 动手 实验 来 进行 深入 理解 。 


显示 字符 的 toy bootloader 


实验 目标 


操作 系统 是 一 个 软件 ， 也 需要 通过 某 种 手段 加 载 并 运行 它 。 在 这 里 我 们 将 通过 另外 一 个 更 加 
简单 的 软件 -bootloader 来 完成 这 些 工作 。 为 此 ， 我 们 需要 完成 一 个 能 够 切换 到 X86 的 保护 模式 
并 显示 字符 的 bootloader， 为 将 来 启动 操作 系统 做 准备 。proj1 提 供 了 一 个 非常 小 的 
bootloader， 整 个 bootloader 的 大 小 小 于 512 个 字 节 ， 这 样 才 能 放 到 硬盘 的 主 引 导 扇 区 中 。 


这 里 对 X86 的 保护 模式 不 必 太 在 意 ， 后 续 会 进一步 讲解 
通过 分 析 和 实现 这 个 bootloader， 读 者 可 以 了 解 到 : 


®。 与 操作 系统 原理 相关 
o I/ 设备 管理 : 设备 管理 的 基本 概念 ， 涉 及 简单 的 信息 输出 
o 内 存 管理 : 基于 分 段 机 制 的 存储 管理 ，X86 的 实 模式 /保护 模式 以 及 切换 到 保护 模式 的 
方法 
。 计算 机 系统 和 编程 
o 硬件 
m PC 加 电 后 启动 bootloader 的 过 
通过 串口 /并 口 /CGA 输 出 字符 
o 软件 
m bootloader 的 文件 组 成 
@ 编译 运行 bootloader 的 过 
m 调试 bootloader 的 方法 
@ 在 汇编 级 了 解 栈 的 结构 和 处 理 过 程 


proj1 概 述 


实现 描述 

proj1 实 现 了 一 个 简单 的 bootloader， 主 要 完成 的 功能 是 初始 化 寄存 器 内 容 ， 完 成 实 模式 到 保 
护 模式 的 转换 ， 在 保护 模式 下 通过 PIO 方 式 控制 串口 、 并 口 和 CGA 等 进行 字符 串 输出 。 

项 目 组 成 


[要 点 ( 非 OSP) : bootloader 的 编译 生成 过 程 ] lab1 中 包含 的 第 一 个 工程 小 例子 是 proj1 : 
可 以 切换 到 保护 模式 并 显示 字符 串 的 bootloader。proj1 的 整体 目录 结构 如 下 所 示 : 


一 个 


|-- asm.h 
|-- bootasm.S 
`“-- bootmain.c 
- libs 
|-- types.h 
.-- x86.h 
- Makefile 
- tools 
|-- function.mk 
|-- gdbinit 
`“-- Sign.c 


3 directories, 9 files 


其 中 一 些 比 较 重 要 的 文件 说 明 如 下 : 


。 bootasm.S : 定义 并 实现 了 bootloader 最 先 执 行 的 函数 start， 此 元 数 进行 了 一 定 的 初始 
化 ， 完 成 了 从 实 模式 到 保护 模式 的 转换 ， 并 调用 bootmain.c 中 的 bootmain 有 函数 。 

。 bootmain.c : 定义 并 实现 了 bootmain 函 数 实现 了 通过 屏幕 、 串 口 和 并 口 显示 字符 串 。 

。 asm.h : 是 bootasm.S 汇 编 文件 所 需要 的 头 文件 ， 主 要 是 一 些 与 X86 保护 模式 的 段 访 问 方 
式 相关 的 宏 定义 。 

。 types.h : 包含 一 些 无 符号 整 型 的 缩写 定义 。 

。 X86.h : 一 些 用 GNU C 网 入 式 汇编 实现 的 C 函 数 (由 于 使 用 了 inline 关 键 字 ， 所 以 可 以 理解 
为 宏 ) 。 

e。 Makefile 和 function.mk : 指导 make 完 成 整个 软件 项 目的 编译 ， 清 除 等 工作 。 

。 sign.c : 一 个 C 语 言 小 程序 ， 是 辅助 工具 ， 用 于 生成 一 个 符合 规范 的 硬盘 主 引导 遍 区 。 

。 gdbinit : 用 于 gdb 远 程 调 试 的 初始 命令 脚本 


从 中 ， 我 们 可 以 看 出 bootloader 主 要 由 bootasm.S 和 bootmain.c 组 成 ， 当 你 完成 编译 后 ， 你 会 
发 现 这 个 bootloader 只 有 区 区 的 3 百 多 字 节 。 下 面 是 编译 运行 bootloader 的 过 程 。 


【提示 】bootloader 是 一 个 超 小 的 系统 软件 ， 在 功能 上 和 与 我 们 一 般 的 应 用 软件 不 同 ， 主 要 
用 于 硬件 简单 初始 化 和 加 载运 行 操 作 系 统 。 ee 时 候 ， 需 要 了 解 它 所 处 的 

硬件 环境 〈 比 如 它 在 内 存 中 的 起 始 地 址 ， 它 的 储存 空间 的 位 置 和 大 小 限制 等 ) 。 而 这 些 
是 编写 应 用 软件 不 太 需 要 了 解 的 ， 因 为 操作 系 了 这 些 问 


编译 运行 


【实验 编译 运行 bootloader 】 


在 proj1 下 执行 make， 在 proj1/bin 目 录 下 可 生成 一 个 ucore.img。ucore.img 是 一 个 包含 了 


bootloader 或 OS 的 硬盘 镜像 ， 通 过 执行 如 下 命令 可 在 硬件 虚拟 环境 qemu 中 运行 bootloader 或 


OS : 
make // 生 成 Dootloader 和 对 应 的 主 引 导 户 区 
make qemu // 通 过 qemu 硬 件 模 拟 器 来 运行 Dbootloader 
make clean // 清 除 生成 的 临时 文件 ,bootlLloader 和 对 应 的 主 引 导 遍 区 


四 QENU 


Starting SeaBI03 (version 0.5.1-20100114_ 083755-sSduirrel.codemonkeuU .ws) 


PxE (http://etherboot .ordg) - 00:03.0 C300 PCIZ.10 PnP BBS PMMO7EOe10 C300 


Booting from Hard Disk.. . 
his is a bootloader: Hello worldty _ 





我 们 除了 需要 了 解 bootloader 的 功能 外 ， 还 需要 进一步 了 解 bootloader 的 编译 链接 和 最 终 执 行 
码 的 生成 过 程 ， 从 而 能 够 清楚 生成 的 代码 是 否 是 我 们 所 期 望 的 。proj1 中 的 Makefile 是 一 个 配 
置 脚本 ，make 软 件 工具 能 够 通过 Makefile 完 成 管理 bootloader 的 CU/ASM 代 码 生 成 执行 码 的 整 
个 过 程 。Makefile 的 内 容 比 较 复 杂 ， 不 过 读者 在 前 期 只 需 会 执行 make [参数 ] 来 生成 代码 和 清 


除 代 码 即 可 。 对 于 本 实验 的 make 的 执行 过 程 如 下 所 示 : 


村 村 
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gcc -02 -0 tools/sign tools/sign.c 
i386-elf-gcc -fno-builtin -Wall -MD -ggdb -m32 -fno-stack-protector -0 -nostdin 


c -Iinclude -Iinclude/x86 -c bootloader/bootmain.c -0 obj/bootmain.o 


3. 


i386-elf-gcc -fno-builtin -wall -MD -ggdb -m32 -fno-stack-protector -nostdinc - 


Iinclude -Iinclude/x86 -c bootloader/bootasm.S -0 obj/bootasm.o 


4. i386-elf-ld -N -e start -Ttext 0x7C00 -0 obj/bootblock.o obj/bootasm.o obj/boo 
tmain.o 
5. i386-elf-objdump -S obj/bootblock.o > obj/bootblock.asm 
6. i386-elf-objcopy -S -0 binary obj/bootblock.o obj/bootblock.out 
7. Sign.exe obj/bootblock.out obj/bootblock 
obj/bootblock.out size: 380 bytes 
build 512 bytes boot sector: obj/bootblock success! 
8. dd if=/dev/zero of=obj/ucore.img count=10000 
10000+0 records in 
10000+0 records out 
5120000 bytes (5.1 MB) copied, 0.509 s, 10.1 MB/s 
9. dd if=obj/bootblock of=obj/ucore.img conv=notrunc 
1+0 records in 
1+0 records out 
512 bytes (512 B) copied, 0.011 s, 46.5 kB/s 
这 9 步 的 含义 是 : 


1， 编译 生 成 sign 执 行程 序 ， 用 于 生成 一 个 符合 规范 的 硬盘 主 引 导 户 区 ; 

2. 用 gcc 编 译 器 编译 bootmain.c， 生 成 ELF 格 式 的 目标 文件 bootmain.o ; 

3. 用 gas 汇 编 器 (gcc 只 是 一 个 包装 ) 编译 bootasm.S， 生 成 ELF 格 式 的 目标 文件 bootasm.o ; 

4， 用 ld 链接 器 把 pootmain.o 和 bootasm.0o 链 接 在 一 起 ， 形 成 生成 ELF 格 式 的 执行 文件 bootblock.o; 

5. 目标 文件 信息 导出 工具 objdump 反 汇编 bootblock.o， 生 成 bootblock.asm， 通 过 查看 bootlock.asm 内 容 ， 
可 以 了 解 bootloader 的 实际 执行 代码 ; 

6， 文件 格式 转换 和 拷贝 工具 objcopy 把 ELF 格 式 的 执行 文件 bootblock .0o 和 转换 成 Dinary 格 式 的 执行 文件 bootbloc 


k.out; 


7. 通过 sign 执 行程 序 ， 把 Bootblock.out (本 身 大 小 需要 小 于 510 字 节 ) 扩展 到 512 字 节 ， 形 成 一 个 符合 规范 的 硬 
盘 主 引导 遍 区 bootblock'， 

8. 设备 级 转换 与 找 贝 工具 dd 生成 一 个 内 容 都 为 “9 的 磁盘 文件 ucore .img ; 

9. 设备 级 转换 与 找 贝 工具 dd 进一步 把 bootb1Lock 履 盖 到 ucore.img 的 前 512 个 字 节 空间 中 ， 这 样 就 可 以 把 ucore , 工 
mg 作为 一 个 可 启动 的 硬盘 被 硬件 模拟 器 qemu 使 用 。 


如 果 需 要 了 解 Makefile 中 的 内 容 ， 需 要 进一步 看 看 附录 “Ucore 实 验 中 的 常用 工具 ”一 节 。 


[背景]Intel 80386 加 电 后 启动 过 程 


【要 点 ( 非 OSP) : 80836 物 理 内 存 地 址 空间 】 
【要 点 ( 非 OSP) : 80836 加 电 后 的 第 一 条 指令 位 】 


大 家 一 般 都 知道 bootloader 负 责 启动 操 作 系 统 ， 但 bootloader 自 身 是 被 谁 加 载 并 启动 的 呢 ? 为 
了 追根 漳 源 ， 我 们 需要 了 解 当 计算 机 加 电 启 动 后 ， 到 底 发 生 了 什么 事情 


对 于 绝 大 多 数 计算 机 系统 而 言 ， 操 作 系 统 和 应 用 软件 是 存放 在 磁盘 (硬盘 /软盘 ) 、 光 盘 、 
EPROM、ROM、Flash 等 可 在 掉 电 后 继续 保存 数据 的 存储 介质 上 “。 当 计算 机 加 电 后 ， 一 般 不 
直接 执行 操作 系统 ， 而 是 一 开始 会 到 一 个 特定 的 地 址 开始 执行 指令 ， 这 个 特定 的 地 址 存放 了 
系统 初始 化 软件 ， 通 过 执行 系统 初始 化 软件 (可 固化 在 ROM 或 Flash 中 ， 也 称 firmware ， 
件 ) 完成 基本 |/O 初 始 化 和 引导 加 载 操作 系统 的 功能 。 简 单 地 说 ， 系 统 初 始 化 软件 就 是 在 操作 
系统 内 核 运 行 之 前 运行 的 一 段 小 软件 。 通 过 这 段 小 软件 的 基本 |/O 初 始 化 部 分 ， 我 们 可 以 初始 
化 硬件 设备 、 建 立 系统 的 内 存 空间 映射 图 ， 从 而 将 系统 的 软 硬 件 环境 带 到 一 个 合适 的 状态 ， 
以 便 为 最 终 调用 操作 系统 内 核准 备 好 正确 的 环境 。 最 终 系统 初始 化 软件 的 引导 加 载 部 分 把 操 
作 系 统 内 核 映 像 加 载 到 RAM 中 ， 并 将 系统 控制 权 传 递 给 它 。 


对 于 基于 Intel 80386 的 计算 机 而 言 ， 其 中 的 系统 初始 化 软件 由 BIOS (Basic Input Output 
System， 即 基本 输入 /输出 系统 ， 其 本 质 是 一 个 国 化 在 主板 Flash/CMOS 上 的 软件 ) 和 位 于 软 
盘 / 硬 盘 引 导 扇 区 中 的 OS Boot Loader (在 ucore 中 的 bootasm.S 和 bootmain.c) 一 起 组 成 。 
BIOS 实 际 上 是 被 固化 在 计算 机 ROM (只 读 存 储 器 ) 芯片 上 的 一 个 特殊 的 软件 ， 为 上 层 软 件 提 
供 最 底层 的 、 最 直接 的 硬件 控制 与 支持 。 


以 基于 Intel 80386 的 计算 机 为 例 ， 计 算 机 加 电 后 ， 整 个 物理 地 址 空间 如 下 图 所 示 : 


-一 OxFFFFFFFF ( 408) 


一 0x00100000 (1NE) 


4— Dx000F000 (960KB 


所 0Dx000G000 (768KB 


-二 Dx000aA0000 (640KB 





-二 一 一 0Dx00000000 
图 2-1 基于 lntel 80386 的 计算 机 物理 地 址 空间 


处 理 器 处 于 实 模式 状态 (在 86386 中 ， 段 机 制 一 直 存 在 ， 可 进一步 参考 2.1.5 【背景 】 理 解 保 
护 模式 和 分 段 机 制 ) ， 从 物理 地 址 0xFFFFFFF0 开 始 执行 。 Re 处 理 
器 的 初始 执行 地 址 ， 此 时 CS 中 可 见 部 分 -选择 子 (selector) 的 值 为 0xXF000， 而 其 不 可 见 部 分 - 
基地 址 (base) 的 值 为 0xXFFFF0000 ; EIP 的 值 是 0xFFFO0， 这 样 实际 的 线性 地 址 (由 于 没有 

启动 也 机 制 ， 所 以 线 ， Wise 为 CS.base+ElIP=0xFFFFFFF0。 在 OxFFFFFFF0 
这 里 只 是 存放 了 一 条 跳 转 指令 过 跳 转 指令 跳 到 BIOS 例 行程 序 起 始点 。 更 详细 的 解释 可 以 
i rNTIALZATION OVERVIEW”。 另 外 ， 我 们 可 以 通过 硬件 模拟 


实验 2-1 : 通过 qemu 了解 Intel 80386 局 动 后 的 CS 和 EIP 值 ， 并 分 
析 第 一 条 指令 的 内 容 


1. 局 动 qemu 并 让 其 停 到 执行 第 一 条 指令 前 ， 这 需要 增加 一 个 参数 ”-S" qemu -S 
2. 这 是 qemu 会 弹出 一 个 没有 任何 显示 内 容 的 图 形 窗 口 ， 显 示 如 下 : 


ml QENU [Stopped] 


如 六 


1， 然 后 通过 按 "Ctrl+Altt+2” 进 入 qemu 的 monitor 界 面 ， 为 了 了 解 80386 此 时 的 寄存 


monitor 界 面 下 输入 命令 “info registers” 


ml QENU [Stopped] 


monitor console 
QEMU 0.12.2 monitor - type “help” for more information 


(qemu) info registers 国 





1， 可 获得 intel 80386 启 动 后 执行 第 一 条 指令 前 的 寄存 器 内 容 ， 如 下 图 所 示 


mm 国电 
] CPL=0 II=0 A200=1 SMM=0 HLT=0 
00000000 0000fffT 00009300 
ffffo000 0000fffF 00009b00 
00000000 0000fffF 00009300 
00000000 0000ffff 00009300 
00000000 0000ffff 00009300 
00000000 0000ffff 00009300 
00000000 0000ffff 00008200 
00000000 0000fffFT 00008b00 
00000000 0000T ET 
00000000 0000T ET 
R0O=60000010 CRz=00000000 CR3=00000000 CR4=00000000 
DRO=00000000 DR1=00000000 DR2=00000000 DR3=00000000 
DR6=ffffoffo DR7=00000400 
FCW=037f FSW=0000 [ST=0] FTW=00 MXCSR=00001f80 
FPRO=0000000000000000 0000 FPR1=0000000000000000 0000 
FPR2=0000000000000000 0000 FPR3=0000000000000000 0000 
FPR4=0000000000000000 0000 FPRS=0000000000000000 0000 
FPR6=0000000000000000 0000 FPFR?=0000000000000000 0000 
KMMOOQ=00000000000000000000000000000000 XMMO1=00000000000000000000000000000000 
KMMOZ=00000000000000000000000000000000 XMMO3=00000000000000000000000000000000 
KMMO4=00000000000000000000000000000000 XMM05=00000000000000000000000000000000 
KMMH06=00000000000000000000000000000000 XMMO7?=00000000000000000000000000000000 


(uenu) 征 





从 上 图 中 ， 我 们 可 以 看 到 EIP=0xfff0，CS 的 selector=0xf000，CS 的 base=0xfff0000。 


BIOS 做 完 计算 机 硬件 自 检 和 初始 化 后 ， 会 选择 一 个 启动 设备 (例如 软 瘟 、 硬 盘 、 光 盘 等 ) ， 
并 且 读 取 该 设备 的 第 一 扇 区 ( 即 主 引 导 扇 区 或 居 动 肩 区 ) 到 内 存 一 个 特定 的 地 址 0X7c00 处 ， 然 后 
CPU 控制 权 会 转移 到 那个 地 址 继续 执行 。 至 此 BIOS 的 初始 化 工作 做 完了 ， 进 一 步 的 工作 交 给 
了 ucore 的 bootloader ; ucore 的 bootloader 会 完成 处 理 器 从 实 模式 到 保护 模式 的 转换 ， 并 从 硬 
盘 上 读 取 并 加 载 uUcore。 其 大 致 流程 如 下 图 所 示 : 


背景 : Intel 80386 加 电 后 启动 过 程 


1 PU 到 OxFFFFFFFO 
OxFFFFFFFF (4GB 


0x00100000 (1NB 


D0x000F0000 (960KB) 


#4— Dx0000000 (768KB) 


0x000AD000 (640KB) 


基于 boot loader 大 小 
0x00007000 


基于 对 堆栈 的 使 用 情况 
0x00000000 





图 2-2 Intel80386 启 动 过 程 
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【背景 】 设 备 管理 : 理解 设备 访问 机 制 


在 本 章 涉及 的 bootloader 和 ucore 都 需要 对 I/ 设备 进行 访问 ， 上 比如 通过 串口 、 并 口 和 CGA 显 示 
器 显示 字符 串 ， 读 取 硬 盘 数 据 ， 处 理 时 钟 中 断 等 ， 已 经 需要 读者 用 到 操作 系统 的 MO 设备 管理 
知识 了 。 为 此 ， 我 们 需要 操作 系统 的 设备 管理 进行 一 个 简要 描述 。 


在 计算 机 系统 中 ， 操 作 系统 需 要 管理 各 种 设备 ， 即 给 它们 发 送 控制 命令 、 捕 获 中 断 、 错 误 处 
理 等 ; 为 此 专门 设置 了 一 个 子 系统 : 设备 管理 子 系统 来 完成 这 些 琐碎 的 工作 。 同 时 设备 管理 
子 系统 还 需要 提供 一 个 简单 曙 用 的 统一 接口 ， 并 尽 可 能 地 使 其 他 内 核 功能 组 件 或 应 用 可 通过 
这 个 统一 接口 访问 所 有 的 设备 ， 即 实现 与 设备 的 无 关 性 。 比 如 在 proj1 中 ，bootloader 提 供 了 
一 个 显示 字符 的 函数 接口 cons_putc (位 于 bootmain.c 中 ) ， 在 proj3 中 的 提供 了 一 个 显示 格式 
人 (位 于 printf.c 中 ) ， 这 样 操作 系统 的 其 他 功能 组 件 就 可 以 直接 使 用 这 
些 简单 易 用 的 接口 来 输出 信息 ， 而 不 是 通过 繁琐 的 MO 命令 与 具体 的 设备 打交道 。cprintf 的 实 
现 相 对 复杂 ， 用 到 C 语 言 的 可 变 列 表 参 数 等 ， 大 家 只 要 把 它 的 功能 理解 为 C 语 言 应 用 库 中 的 
printf 的 简化 版 即 可 ， 并 掌握 最 后 是 如 何 通过 调用 cons_putc 函 数 完成 具体 的 MO 字符 输出 。 


接 下 来 ， 我 们 将 从 操作 系统 概念 的 角度 对 IO 设备 组 成 、 控 制 设备 的 方式 进行 阐述 ， 并 进一步 
对 实验 中 所 使 用 的 基于 Programmed I/O (PIO) 方式 访问 并 口 、CGA 和 硬盘 进行 具体 分 析 。 


硬件 设备 简介 


对 于 硬件 设备 而 言 ， 操 作 系 统 所 关心 的 并 不 是 硬件 自身 的 设计 ， 而 是 如 何 来 对 它 进 行 控 制 ， 
即 该 硬件 所 接受 的 控制 命令 、 所 完成 的 功能 ， 以 及 所 返回 的 出 错 。 ee 
备 管理 子 系统 时 ， 人 \ 线 上 连接 的 |/O 控 制 器 (比如 PC 机 中 的 CGA 控 
制 器 、 串 口 控制 器 、 并 口 控制 器 、 时 钟 控制 器 8254， 中 断 控 利 | 器 8259 等 ) 。 


MO 控制 器 在 物理 上 包含 三 个 层次 : MO 地 址 空间 、JO 接 口 和 设备 控制 器 。 每 个 连接 到 IO 总 线 
上 的 设备 都 有 自己 的 MO 地 址 空 人 口 ) ， 这 也 是 CPU 可 以 直接 访问 的 地 址 。 在 PC 机 
中 ， OM 过 IN/OUT 这 类 的 |/O 访 问 指令 访问 )， 也 支持 基于 内 存 的 |/O 
地 址 空间 (通过 MOV 等 访 存 指令 访问 ) 。 这 些 |/O 访 问 请 求 通过 |/O 总 线 传 递 给 I/ 接口 。 


I/O 接 口 是 处 于 一 组 |/O 端 口 和 对 应 的 设备 控制 器 之 间 的 一 种 硬件 电路 。 它 将 |/O 访 问 请 求 中 的 
特定 值 转换 成 设备 所 需要 的 命令 和 数据 ; 并 且 检测 设备 的 状态 变化 ， 及 时 将 各 种 状态 信息 写 
回 到 特定 MO 地 址 空间 ， 供 操作 系统 通过 IO 访问 指令 1 问 。 包括 键盘 接口 、 图 形 接 
口 、 磁 盘 接口 、 总 线 据 标 、 网 络 接口 、 括 并 口 、 串 口 、 通 用 串 行 总 线 、PCMCIA 接 口 和 SCSI 
接口 等 。 


设备 控制 0 须 的 ， 只 有 少数 复杂 的 设备 才 需 要 。 它 负责 解释 从 |/O 接 口 
接收 到 的 高 级 命令 ， 并 将 其 以 适当 的 方式 发 送 到 |/O 设 备 ; 并 且 对 |/ 设备 发 送 的 消息 进 0 
ee 。 典 型 的 设备 控制 器 就 是 磁盘 控制 器 ， 它 将 CPU 发 送 过 来 的 读 写 


数据 指令 转换 成 底层 的 磁盘 操作 。 


控制 设备 的 方式 


操作 系统 对 硬件 设备 的 控制 方式 主要 与 三 种 : 程序 循环 检测 方式 (Programmed MO， 简 称 
PIO)、 中 断 驱动 方式 (Interrupt-driven 1/O)、 直 接 内 存 访问 方式 (DMA, Direct Memory 
Access)。 


在 本 章 的 proj1 实 验 中 ，bootloader 需 要 显示 字符 串 ， 就 是 采用 相对 简单 的 PIO 方 式 。 PIO 方 式 
是 一 种 通过 CPU 执行 JO 端 口 指令 来 进行 数据 读 写 的 数据 交换 模式 ， 被 广泛 应 用 于 硬盘 、 光 驱 
等 设备 的 基础 传输 模式 中 。 这 种 MO 访问 方式 使 用 CPU WO 端口 指令 来 传送 所 有 的 命令 、 状 态 
和 数据 ， 需 要 处 理 器 全 程 参 与 ， 效 率 较 低 ， 但 编程 很 简单 。 后 面 讲 到 的 中 断 方 式 和 直接 内 存 
访问 (Direct Memory Access，DMA) 方式 将 更 加 高 效 。 


和 ， 其 控制 方式 体现 在 执行 过 程 中 通过 不 断 地 检测 1/ 设备 的 当前 状 

， 来 控制 /OO 操作。 具体 而 言 ， 在 进行 |/O 操 作 之 前 ， 要 循环 地 检测 设备 是 否 就 绪 ; 在 MO 操 
作 进 行 之 中 ， 要 循环 地 检测 设备 是 否 已 完成 ; 在 I/O 操 作 完 成 之 后 ， 还 要 把 输入 的 数据 保存 到 
内 存 ( 输 入 操作 ) 。 从 硬件 的 角度 来 说 ， 控 制 JO 的 所 有 工作 均 由 CPU 来 完成 。 所 以 此 方式 也 
称 为 繁忙 等 待 方式 〈busy waiting) 或 轮 询 方式 〈polling) 。 其 缺点 是 在 进行 JO 操 作 时 ， 一 直 
占用 CPU 时 间 。 


中 断 驱 动 方式 的 基本 思路 是 用 户 任务 通过 系统 调用 函数 来 发 起 |/O 操 作 。 执 行 系统 调用 后 会 阻 
塞 该 任务 ， 调 度 其 他 的 任务 使 用 CPU。 在 IO 操作 完成 时 ， 设 备 向 CPU 发 出 中 断 ， 然 后 在 中 断 
服务 例 程 中 做 进一步 的 处 理 。 在 中 断 驱 动 方式 下 ， 数 据 的 每 次 读 写 还 是 通过 CPU 来 完成 。 但 

是 当 |/O 设 备 在 进行 数据 处 理 时 ，CPU 不 必 等 待 ， 可 以 继续 执行 其 他 的 任务 。 采 用 这 种 方式 可 
提供 CPU 利用 率 。 编 程 方面 ， 要 考虑 异步 特性 ， 相 对 麻烦 一 些 。 


使 用 DMA 的 控制 方式 ， 首 先 需要 有 DMA 控 制 器 。 该 控制 器 可 集成 在 设备 控制 器 中 ， 也 可 集成 
在 主板 上 。DMA 控 制 器 可 以 直接 去 访问 系统 总 线 ， 它 能 代替 CPU 指挥 JO 设 备 与 内 存 之 间 的 数 
据 传 送 ， 在 执行 完毕 后 再 通知 CPU。 这 种 方式 可 大 大 减少 CPU 的 执行 开销 ， 适 合 大 数据 量 的 
设备 数据 传送 。 在 编程 方面 ， 需 要 对 DMA 进 行 编程 和 异步 中 断 编 程 ， 相 对 更 加 复杂 一 些 。 


串口 (serial port) 访问 控制 


串口 是 一 个 字符 设备 ，proj1 通 过 串口 输出 需要 显示 的 信息 。 考 虑 到 简单 性 ， 在 proj1 中 没有 对 
串口 设备 进行 初始 化 ， 通 过 串口 进行 输出 的 过 程 也 很 简单 : 第 一 步 : 执行 inb 指 令 读 取 串 口 的 
/OQ 地址 (COM1 + COM_LSR) 的 值 ， 如 果 发 现 发 现 读 出 的 值 代表 串口 忙 ， 则 空转 一 小 会 
(0x84 是 什么 地 址 ?33) ; 如 果 发 现 发 现 读 出 的 值 代表 串口 空闲 ， 则 执行 outb 指 令 把 字符 写 到 
串口 的 JO 地 址 (COM1 + COM_TX) ， 这 样 就 完成 了 一 个 字符 的 串口 输出 。 在 proj1 的 
bootmain.c 中 的 serial_putc 有 函数 完成 了 串口 输出 字符 的 工作 ,可 参看 其 函数 来 了 解 大 致 实现 。 
有 关 串 口 的 硬件 细节 可 参考 附录 补充 材料 。 


并 口 (parallel port) 访问 控制 


并 口 也 是 一 个 字符 设备 ，proj1 也 通过 并 口 输出 需要 显示 的 信息 。 考 虑 到 简单 性 ， 在 proj1 中 没 
有 对 并 口 设备 进行 初始 化 ， 通 过 并 口 进行 输出 的 过 程 也 很 简单 : 第 一 步 : 执行 inb 指 令 读 取 并 
口 的 MO 地 址 (LPTPORT + 1) 的 值 ， 如 果 发 现 发 现 读 出 的 值 代表 并 口 性， 则 空转 一 小 会 再 
读 ; 如 果 发 现 发 现 读 出 的 值 代表 并 口 空闲 ， 则 执行 outb 指 令 把 字符 写 到 并 口 的 /OQ 地 址 
(LPTPORT ) ， 这 样 就 完成 了 一 个 字符 的 并 口 输出 。 在 proj1 的 bootmain.c 中 的 lpt_putc 驾 数 
完成 了 并 口 输出 字符 的 工作 ,可 参看 其 函数 来 了 解 大 致 实现 。 有 关 并 口 的 硬件 细节 可 参考 附录 
补充 材料 。 


CGA 字 符 显 示 控 制 


彩色 图 形 适 配器 (Color Graphics Adapter，CGA) 支持 7 种 彩色 和 文本 /图 形 显示 方式 ，proj1 
也 通过 CGA 进 行 信息 显示 。 在 80 列 x25 行 的 文本 字符 显示 方式 下 ， 有 单 色 和 16 色 两 种 显示 方 

式 。CGA 显 示 控 制 器 标 配 有 16KB 显 示 内 存 (占用 内 存 地 址 范围 0xb8000~0xbc000) ， 可 以 

看 成 是 一 种 内 存 块 设备 ， 即 bootloader 和 操作 系统 可 以 直接 对 显存 进行 内 存 访 问 ， 从 而 完成 信 
息 显示 。 在 CGA 显 示 控制 器 中 ， 字 符 显 示 内 存 从 线性 地 址 0x000B8000 开 始 ， 在 80 列 x25 行 的 
范围 内 ， 共 2000 字 符 。 每 个 字符 需要 两 个 字 节 来 显示 : 第 一 个 字 节 是 想 要 显示 的 字符 ， 第 二 
个 字 节 用 来 确定 前 景色 和 背景 色 。 前 景色 用 低 4 位 (0~3 位 ) 来 表示 ， 背 景色 用 第 4 位 到 第 6 位 
来 表示 。 最 高 位 表示 这 个 字符 是 否 闪烁 ，1 表 示 闪 烁 ，0 表 示 不 闪烁 。 


如 果 要 在 屏幕 上 设置 光标 ， 则 它 须 通过 CGA 显 示 控 制 器 的 |/O 端 口 开 控制 。 显 示 控 制 索引 寄存 
器 的 |/O 端 口 地 址 为 0x3d4 ; 数据 寄存 器 |/O 端 口 地 址 为 0xX3d5。CGA 显 示 控 制 器 内 部 有 一 系列 
寄存 器 可 以 用 来 访问 其 状态 。0x3d4 和 0x3d5 两 个 端口 可 以 用 来 读 写 CGA 显 示 控 制 器 的 内 部 寄 
存 器 。 方 法 是 先 向 0X3d4 端 口 写 入 要 访问 的 寄存 器 编号 ， 再 通过 0X3d5 端 口 来 读 写 寄存 器 数 
据 。 存 放 光 标 位 置 的 寄存 器 编号 为 14 和 15。 两 个 寄存 器 合 起 来 组 成 一 个 16 位 整数 ， 这 个 整数 
就 是 光标 的 位 置 。 比 如 0 表示 光标 在 第 0 行 第 0 列 ，81 表 示 第 1 行 第 1 列 〈( 设 屏幕 共有 80 列 ) 。 


在 proj1 中 没有 对 CGA 显 示 控制 器 进行 初始 化 ， 通 过 CGA 显 示 控 制 器 进行 输出 的 过 程 也 很 简 
单 : 首先 通过 in/out 指 令 获 取 当 前 光标 位 置 ; 然后 根据 得 到 的 位 置 计 算出 显存 的 地 址 ， 直 接 通 
过 访 存 指令 写 内 存 来 完成 字符 的 输出 ; 最 后 通过 in/out 指 令 更 新 当前 光标 位 置 。 在 proj1 的 
bootmain.c 中 的 cga_putc 函 数 完成 了 CGA 字 符 方式 在 某 位 置 输出 字符 的 工作 ， 可 参看 其 函数 
了 解 大 致 实现 。 


设备 管理 封装 


proj1 把 上 述 三 种 设备 进行 了 一 个 封装 ， 提 供 了 一 个 cons_puts 函 数 接口 : 完成 字符 串 的 输出 ; 
和 一 个 cons_putc 函 数 接口 ， 完 成 字符 的 输出 。 其 他 内 核 功 能 模块 只 需 调 用 cons_puts 或 
cons_putc 就 可 完成 向 上 述 三 个 设备 进行 字符 输出 的 功能 。 这 也 就 体现 了 设备 管理 子 系统 提供 


一 个 简单 多 用 的 统一 接口 的 操作 系统 设计 思想 。 


【背景 】 内 存 管理 : 理解 保护 模式 和 分 段 机 制 


为 何 要 了 解 Intel 80386 的 保护 模式 和 分 段 机 制 ? 首先 ， 我 们 知道 Intel 80386 只 有 在 进入 保护 模 
式 后 ， 才 能 充分 发 挥 其 强大 的 功能 ， 提 供 更 好 的 保护 机 制 和 更 大 的 寻 址 空间 ， 否 则 仅仅 是 一 
个 快速 的 8086 而 已 。 没 有 一 定 的 保护 机 制 ， 任 何 一 个 应 用 软件 都 可 以 任意 访问 所 有 的 计算 机 
资源 ， 这 样 也 就 无 从 谈 起 操作 系统 设计 了 。 且 |ntel 80386 的 分 段 机 制 一 直 存 在 ， 无 法 屏蔽 或 
避免 。 其 次 ， 在 我 们 的 bootloader 设 计 中 ， 涉 及 到 了 从 实 模式 到 保护 模式 的 处 理 ， 我 们 的 操作 
系统 功能 (比如 分 页 机 制 ) 是 建立 在 Intel 80386 的 保护 模式 上 来 设计 的 。 如 果 我 们 不 了 解 保 
护 模 式 和 分 段 机 制 ， 则 我 们 面向 Intel 80386 体 系 结构 的 操作 系统 设计 实际 上 是 建立 在 一 个 空 
中 楼 阁 之 上 。 


实 模 式 


80386 的 实 模式 是 为 了 与 8086 处 理 器 兼容 而 设置 的 。 在 实 模式 下 ，80386 处 理 器 就 相当 于 一 个 
快速 的 8086 处 理 器 。80386 处 理 器 被 复位 或 加 电 的 时 候 以 实 模式 启动 。 这 时 候 处 理 器 中 的 各 
寄存 器 以 实 模式 的 初始 化 值 工 作 。80386 处 理 器 在 实 模式 下 的 存储 器 0 
致 ， 由 段 寄 存 器 的 内 容 乘 以 16 作 为 基地 址 ， 加 上 段 内 的 偏 移 地 址 形成 最 终 的 物理 地 址 ， 这 时 
候 它 的 32 位 地 址 线 只 使 用 了 低 20 位 ， 即 可 访问 1MB 的 物理 地 址 空间 。 在 实 模式 下 ，80386 处 
理 器 不 能 对 内 存 进行 分 页 机 制 的 管理 ， 所 以 指令 寻 址 的 地 址 就 是 内 存 中 实际 的 物理 地 址 。 在 
实 模式 下 ， 所 有 的 段 都 是 可 以 读 、 写 和 执行 的 。 实 模式 下 80386 不 支持 优先 级 ， 所 有 的 指令 相 
当 于 工作 在 特权 级 ( 即 优先 级 0) ， 所 以 它 可 以 执行 所 有 特权 指令 ， 包 括 读 写 控制 寄存 器 CRO 
等 。 这 实际 上 使 得 在 实 模式 下 不 太 可 能 设计 一 个 有 保护 能 力 的 操作 系统 。 实 模式 下 不 支持 硬 
件 上 的 多 任务 切换 。 实 模式 下 的 中 断 处 理 方式 和 8086 处 理 器 相同 ， 也 用 中 断 向 量 表 来 定位 中 
断 服务 程序 地 址 。 中 断 向 量 表 的 结构 也 和 8086 处 理 器 一 样 ， 每 4 个 字 节 组 成 一 个 中 断 向 量 ， 其 
中 包括 两 个 字 节 的 段 地 址 和 两 个 字 节 的 偏 移 地 址 。 应 用 程序 可 以 任意 修改 中 断 向 量 表 的 内 

容 ， 使 得 计算 机 系统 容易 受到 病毒 、 木 马 等 的 攻击 ， 整 个 计算 机 系统 的 安全 性 无 法 得 到 保 
证 。 

【历史 : 寻 址 空间 : A20 地 址 线 与 处 理 器 向 下 兼容 】 


Intel 早 期 的 8086 CPU 提供 了 20 根 地 址 线 , 可 寻 址 空间 范围 即 0~2^20(00000H~FFFFFH) 的 

1MB 内 存 空 间 。 但 8086 的 数据 处 理 位 为 16 位 ,无 法 直接 寻 址 1MB 内 存 空 间 ， 所 以 8086 提 供 了 
段 地 址 加 偏 移 地 址 的 地 址 转换 机 制 ， 就 是 我 们 常见 的 " 段 地 址 (16 位 ): 偏 移 地 址 (16 位 或 有 效 地 
址 )", 实 际 的 计算 方法 为 " 段 地 址 *0x10H+ 偏 移 地 址 ”， 作 为 段 地址 的 数据 是 放 在 段 寄存 器 中 的 
(16 位 )， 而 作为 位 偏 移 地 址 的 数据 则 是 通过 8086 提 供 的 寻 址 方式 来 计算 而 来 的 (16 位 )。 而 “ 段 
值 : 偏 移 "这 种 表示 法 能 够 表示 的 最 大 内 存 为 0x10FFEEH( 即 0OxFFFFOH + 0xFFFFH)， 所 以 当 
寻 址 到 超过 1MB 的 内 存 时 ， 会 发 生 “ 回 卷 " (不 会 发 生 异 常 ) 。 但 下 一 代 的 基于 Intel 80286 

CPU 的 PC AT 计算 机 系统 提供 了 24 根 地 址 线 ， 这 样 CPU 的 寻 址 范围 变 为 2\24=16M, 同 时 也 提 


供 了 保护 模式 ， 可 以 访问 到 1MB 以 上 的 内 存 了 ， 此 时 如 果 遇 到 “ 寻 址 超过 1MB” 的 情况 ， 系 统 不 
会 再 " 回 卷 " 了 ， 这 就 造成 了 向 下 不 兼容 。 为 了 保持 完全 的 向 下 兼容 性 ，IBM 决 定 在 PC AT 计算 
机 系统 上 加 个 硬件 逻辑 ， 来 模仿 以 上 的 回 绕 特 征 。 他 们 的 方法 就 是 把 A20 地 址 线 控制 和 键盘 控 
制 器 的 一 个 输出 进行 AND 操 作 ， 这 样 来 控制 A20 地 址 线 的 打开 (使 能 ) 和 关闭 (屏蔽 \ 禁 

止 ) 。 一 开始 时 A20 地 址 线 控制 是 被 屏蔽 的 (总 为 0) ， 直 到 系统 软件 通过 一 定 的 MO 操作 去 打 
开 它 (参看 bootloader 的 bootasm.S 文 件 ) 。 当 A20 地 址 线 控制 禁止 时 ， 则 程序 就 像 在 8086 
中 运行 ，1MB 以 上 的 地 是 不 可 访问 的 。 在 保护 模式 下 A20 地 址 线 控制 是 要 打开 的 。 为 了 使 能 所 
有 地 址 位 的 寻 址 能 力 ,必须 向 键盘 控制 器 8042 发 送 一 个 命令 。 键 盘 控 制 器 8042 将 会 将 它 的 的 某 
个 输出 引 脚 的 输出 置 高 电 平 ,作为 A20 地 址 线 控制 的 输入 。 一 旦 设置 成 功 之 后 ,内 存 将 不 会 再 被 
绕 回 (memory wrapping), 这 样 我 们 就 可 以 寻 址 intel 80286 CPU 支持 的 16M 内 存 空 间 ， 或 者 是 
寻 址 intel 80386 以 上 级 别 CPU 支 持 的 所 有 4G 内 存 空 间 了 。 8042 键 盘 控 制 器 的 MO 端口 是 0x60 
~0x6f， 实 际 上 IBM PC/AT 使 用 的 只 有 0x60 和 0x64 两 个 端口 (0x61、0x62 和 0x63 用 于 与 XT 兼 
容 目 的 ) 。8042 通 过 这 些 端口 给 键盘 控制 器 或 键盘 发 送 命令 或 读 取 状态 。 输 出 端口 P2 用 于 特 
定 目的 。 位 0 (P20 引 脚 ) 用 于 实现 CPU 复 位 操作 ， 位 1 (P21 引 脚 ) 用 户 控制 A20 信 号 线 的 开 
启 与 否 。 系 统 向 输入 缓冲 (端口 0x64) 写 入 一 个 字 节 ， 即 发 送 一 个 键盘 控制 器 命令 。 可 以 带 
一 个 参数 。 参 数 是 通过 0X60 端 口 发 送 的 。 命令 的 返回 值 也 从 端口 0x60 去 读 。 在 proj1 的 
bootasm.S 中 ，“seta20.1” 标 号 和 “seta20.2” 标 号 后 的 汇编 代码 即 是 用 来 完成 A20 地 址 线 控制 打 
开工 作 的 。 


保护 模式 概述 


简单 地 说 ， 通 过 保护 模式 ， 可 以 把 虚拟 地 址 空间 映射 到 不 同 的 物理 地 址 空间 ， 且 在 超出 预 设 
的 空间 范围 会 报错 〈 一 种 保护 机 制 的 体现 ) ， 且 可 以 保证 处 于 低 特 权 级 的 代码 无 法 访问 搞 特 
权 级 的 数据 (另外 一 种 保护 机 制 的 体现 ) 。 只 有 在 保护 模式 下 ，80386 的 全 部 32 位 地 址 才能 
有 效 ， 可 寻 址 高 达 4G 字 节 的 线性 地 址 空间 和 物理 地 址 空间 ， 可 访问 64TB (有 2^14 个 段 ， 每 个 
段 最 大 空间 为 2^*32 字 节 ) 的 虚拟 地 址 空间 ， 可 采用 分 段 存 储 管理 机 制 和 分 页 存储 管理 机 制 。 
这 不 仅 为 存储 共享 和 保护 提供 了 硬件 支持 ， 而 且 为 实现 虚拟 存储 提供 了 硬件 支持 。 通 过 提供 4 
个 特权 级 和 完善 的 特权 检查 机 制 ， 既 能 实现 资源 共享 又 能 保证 代码 数据 的 安全 及 任务 隔离 。 
在 保护 模式 下 ， 特 权 级 总 共有 4 个 ， 编 号 从 0 (最 高 特权 ) 到 3 (最 低 特 权 ) 。 有 3 种 主要 的 资 
源 受 到 保护 : 内 存 ，1/O 地 址 空间 以 及 执行 特殊 机 器 指令 的 能 力 。 在 任 一 时 刘 ，intel 80386 
CPU 都 是 在 一 个 特定 的 特权 级 下 运行 的 ， 从 而 决定 了 代码 可 以 做 什么 ， 不 可 以 做 什么 。 这 些 
特权 级 经 常 被 称 为 为 保护 环 〈protection ring) ， 最 内 的 环 (ring 0) 对 应 于 最 高 特权 0， 最 外 
面 的 环 (ring 3) 一 般 给 应 用 程序 使 用 ， 对 应 最 低 特 权 3。 在 ucore 中 ，CPU 只 用 到 其 中 的 2 个 
特权 级 : 0 (内 核 态 ) 和 3 (用 户 态 ) 。 在 保护 模式 下 ， 我 们 可 以 通过 查看 CS 寄存 器 的 最 低 两 
位 来 了 解 当 前 正在 运行 的 处 理 器 是 处 于 哪个 特权 级 。 


分 段 机 制 的 地 址 转换 


intel 80386 CPU 提供 了 分 段 机 制 和 分 页 机 制 两 种 内 存 管理 方式 ， 在 当前 计算 机 系统 中 是 否 需 
要 这 两 种 机 制 共存 没有 一 个 明确 的 答案 ， 二 者 有 它们 各 自 独 特 的 功能 。 在 intel 80386 CPU 
中 ， 只 要 进入 保护 模式 ， 必 然 需要 启动 分 段 机 制 ， 且 一 直 存 在 下 去 (分 页 不 一 定 要 一 直 存 

在 ) ， 所 以 我 们 需要 了 解 分 段 机 制 的 原理 。 分 段 机 制 体现 了 内 存 中 不 同 地 址 的 一 种 转换 /映射 
方式 ， 即 程序 员 编程 所 使 用 的 地 址 (逻辑 地 址 ) 和 实际 计算 机 中 的 物理 地 址 需要 通过 分 段 机 
制 来 建立 映射 关系 。 分 段 机 制 将 内 存 划 分 成 以 起 始 地 址 和 长 度 限 制 这 两 个 参数 表示 的 内 存 

块 ， 这 些 内 存 块 就 称 之 为 段 (Segment) 。 编 译 器 把 源 程序 编译 成 执行 程序 时 用 到 的 代码 

段 、 数 据 段 、 堆 和 栈 等 概念 在 这 里 可 以 与 段 联系 起 来 ， 二 者 在 含义 上 是 一 致 的 。 从 操作 系统 
原理 上 看 ， 编 译 器 实际 上 采用 了 基于 分 段 的 虚 存 管理 方式 来 生成 执行 程序 的 ， 即 应 用 程序 员 
看 到 的 逻辑 地 址 和 位 于 计算 机 上 的 物理 地 址 之 间 有 映射 关系 ， 二 者 可 以 是 不 同 的 。 当 然 ， 后 
续 章节 中 ， 我 们 还 将 介绍 分 页 机 制 ， 即 另 一 种 使 用 更 加 广泛 的 地 址 转换 /映射 方式 ， 这 是 操作 
系统 实现 虚 存 管理 的 重要 基础 。 简单 地 说 ， 当 CPU 执行 一 条 访 存 指令 时 (一 个 具体 的 指 

令 ) ， 基 于 分 段 模式 的 具体 硬件 操作 过 程 如 下 : 


1. 根据 指令 的 内 容 确定 应 该 使 用 的 段 寄 存 器 ， 比 如 取 内 存 指 令 的 内 存 地 址 所 对 应 的 数据 段 
寄存 器 为 DS ; 

2. 根据 段 寄 存 器 DS 的 值 作 为 选择 子 ， 以 此 选择 子 值 为 索引 ， 在 段 描述 符 表 (可 理解 为 一 个 
大 数组 ) 找到 索引 指向 的 段 描述 符 〈 可 理解 为 数组 中 的 元 素 ) 

3. 在 段 描述 符 中 取出 基地 址 域 ( 段 的 起 始 地址 ) 和 地 址 范围 域 ( 段 的 长 度 ) 的 值 ; 

4. 将 指令 内 容 确定 的 地 址 偏 移 ， 与 地 址 范围 域 的 值 比 较 ， 确 保 地 址 偏 移 小 于 地 址 范围 ， 这 
样 是 为 了 确保 地 址 范围 不 会 跨 出 段 的 范围 ; (第 一 层 保护 ) 

5， 根据 指令 的 性 质 (当前 指令 的 CS 值 的 低 两 位 ) 确定 当前 指令 的 特权 级 ， 需 要 高 于 当前 指 
令 访 问 的 数据 段 的 特权 级 ; (第 二 层 保护 ) 

6. 根据 指令 的 性 质 (指令 是 做 读 还 是 写 操作 )， 需 要 当前 指令 访问 的 数据 段 可 读 或 可 写 ; (第 
三 层 保护 ) 

7. 将 DS 指向 的 段 描 述 符 中 基地 址 域 的 值 加 上 指令 内 容 中 指定 的 访 存 地 址 段 内 偏 移 值 ， 形 成 
实际 的 物理 地 址 (实现 地 址 转换 ) ， 发 到 数据 地 址 总 线 上 ， 到 物理 内 存 中 寻 址 ， 并 取 回 
该 地 址 对 应 的 数据 内 容 。 分 段 机 制 涉及 4 个 关键 内 容 : 逻辑 地 址 (Logical Address, 应 用 
程序 员 看 到 的 地 址 ， 在 操作 系统 原理 上 称 为 庶 拟 地 址 ， 以 后 提 到 虚拟 地 址 就 是 指 逻 辑 地 
址 ) 、 物 理 地 址 (Physical Address, 实际 的 物理 内 存 地 址 ) 、 段 描述 符 表 (包含 多 个 段 
描述 符 的 “数组 ") 、 段 描述 符 (描述 段 的 属性 ， 及 段 描述 符 表 这 个 “数组 "中 的 “数组 元 
素 ") 、 段 选择 子 〈 即 段 寄 存 器 中 的 值 ， 用 于 定位 段 描述 符 表 中 段 描 述 符 表 项 的 索引 ) 。 
虚拟 地 址 到 物理 地 址 的 转换 主要 分 以 下 两 步 : 

8， 分 段 地 址 转换 : CPU 把 虚拟 地 址 (由 段 选择 子 selector 和 上段 偏 移 offset 组 成 ) 中 的 段 选择 
子 值 作为 段 描述 符 表 的 索引 ， 找 到 表 中 对 应 的 段 描述 符 ， 然 后 把 段 描述 符 中 保存 的 段 基 
址 加 上 段 偏 移 值 ， 形 成 线性 地 址 (Linear Address， 在 操作 系统 原理 上 没有 直接 对 应 的 描 
述 ， 在 没有 启动 分 页 机 制 的 情况 下 ， 可 认为 就 是 物理 地 址 ; 如 果 启 动 了 分 页 机 制 ， 则 可 
理解 为 第 二 级 虚拟 地 址 ) 。 如 果 不 启 动 分 页 存储 管理 机 制 ， 则 线性 地 址 等 于 物理 地 址 。 

9， 分 页 地 址 转换 ， 这 一 步 中 把 线性 地 址 转换 为 物理 地 址 。 (注意 : 这 一 步 是 可 选 的 ， 由 操 
作 系 统 决定 是 否 需 要 。 在 后 续 试验 中 会 涉及 。) 上 述 转换 过 程 对 于 应 用 程序 员 来 说 是 不 
可 见 的 。 线 性 地 址 空间 由 一 维 的 线性 地 址 构成 ， 在 分 段 机 制 下 的 线性 地 址 空间 和 物理 地 


址 空间 对 等 。 线 性 地 址 32 位 长 ， 线 性 地 址 空间 容量 为 4G 字 节 。 分 段 机 制 中 虚拟 地 址 到 线 
性 地 址 转换 转换 的 基本 过 程 如 下 图 所 示 。 
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图 1 分 段 机 制 中 虚拟 地 址 到 线性 地 址 转换 转换 基本 过 程 


分 段 存 储 管 理 机 制 需要 在 启动 保护 模式 的 前 提 下 建立 。 从 上 图 可 以 看 出 ， 为 了 使 得 分 段 存储 
管理 机 制 正 常 运行 ， 需 要 在 启动 保护 模式 前 建立 好 段 描述 符 和 段 描述 符 表 (参看 bootasm.S 中 
的 “lgdt gdtdesc” 语 句 和 gdt 标 号 /gdtdesc 标 号 下 的 数据 结构 ) 。 


段 选择 子 


段 选择 子 是 用 来 选择 哪个 描述 符 表 和 在 该 表 中 索引 哪 一 个 描述 符 的 。 选 择 子 可 以 做 为 指针 变 
量 的 一 部 分 ， 从 而 对 应 用 程序 员 是 可 见 的 ， 但 是 一 般 是 由 编译 器 (gcc) 和 链接 工具 (ld) 来 
设置 的 。 段 选择 子 的 内 容 一 般 放 在 段 寄 存 器 中 。 选 择 子 的 格式 如 下 图 所 示 : 
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了 -0: 全 局 描述 符 表 ; 1; 局 部 描述 符 表 
RPL - 请 求 特权 级 


图 2 段 选 择 子 结构 


索引 (Index) :在 描述 符 表 中 从 8192 个 描述 符 中 选择 一 个 描述 符 。 处 理 器 自动 将 这 个 索引 值 
乘 以 8 (描述 符 的 长 度 ) ， 再 加 上 描述 符 表 的 基 址 来 索引 描述 符 表 ， 从 而 选 出 一 个 合适 的 描述 
符 。 

表 指 示 位 (Table Indicator，TI) : 选择 应 该 访问 哪 一 个 描述 符 表 。0 代 表 应 该 访问 全 局 描述 
符 表 (GDT) ; 1 代表 应 该 访问 局 部 描述 符 表 (LDT) 。LDT 在 实验 中 没有 涉及 。 


请 求 特权 级 (Requested Privilege Level，RPL) : 用 于 段 级 的 保护 机 制 ， 比 如 ， 段 选择 子 
是 CS， 则 这 两 位 表示 当前 执行 指令 的 处 理 器 所 处 的 特权 级 的 值 ， 从 而 你 可 以 了 解 到 当前 处 理 
器 是 处 于 用 户 态 (Ring 3) 还 是 内 核 态 (Ring 0) 。 在 后 续 试 验 中 会 进一步 讲解 。 


段 描 述 符 


在 分 段 存 储 管 理 机 制 的 保护 模式 下 ， 每 个 段 由 如 下 三 个 参数 进行 定义 : 段 基 地 址 (Base 
Address)、 段 界限 (Limit) 和 段 属性 (Attributes) 。 


段 基 地 址 : 即 线性 地 址 空间 中 段 的 起 始 地 址 。 在 80386 保 护 模式 下 ， 段 基地 址 长 32 位 。 因 为 基 
地 址 长 度 与 寻 址 地 址 的 长 度 相 同 ， 所 以 任何 一 个 段 都 可 以 从 32 位 线性 地 址 空间 中 的 任何 一 个 
字 节 开始 ， 而 不 象 实 方 式 下 规定 的 边界 必须 被 16 整 除 。 在 实验 中 ， 一 般 都 简化 了 段 机 制 的 使 
用 ， 把 所 有 上段 的 段 基 地 址 设置 为 0。 


段 界限 : 规定 段 的 大 小 。 在 80386 保 护 模 式 下 ， 段 界限 用 20 位 表示 ， 而 且 段 界限 可 以 是 以 单字 
节 为 最 小 单位 或 以 4K 字 节 为 最 小 单位 。 在 实验 中 ， 一 般 都 简化 了 段 机 制 的 使 用 ， 把 所 有 上段 的 
段 界 限 设 置 为 0xFFFFF ， 以 4K 字 节 为 最 小 单位 ， 即 段 的 界限 为 4GB ; 


类 型 (TYPE) : 用 于 区 别 不 同类 型 的 描述 符 。 可 表示 所 描述 的 段 是 代码 段 还 是 数据 段 ， 所 描 
述 的 段 是 否 可 读 / 写 /执行 ， 段 的 扩展 方向 等 。 描 述 符 特权 级 (Descriptor Privilege Level ) 
(DPL) : 用 来 实现 保护 机 制 。 段 存在 位 (Segment-Present bit) : 如 果 这 一 位 为 0， 则 此 
描述 符 为 非法 的 ， 不 能 被 用 来 实现 地 址 转换 。 如 果 一 个 非法 描述 符 被 加 载 进 一 个 段 寄 存 器 ， 
处 理 器 会 立即 产生 异常 。 图 2 显示 了 当 存在 位 为 0 时 ， 描 述 符 的 格式 。 操 作 系统 可 以 任意 的 使 
用 被 标识 为 可 用 (AVAILABLE) 的 位 。 已 访问 位 (Accessed bit) : 当 处 理 器 访问 该 段 ( 当 
一 个 指向 该 段 描述 符 的 选择 子 被 加 载 进 一 个 段 寄 存 器 ) 时 ， 将 自动 设置 访问 位 。 操 作 系 统 可 
清除 该 位 。 上述 表 示 段 的 属性 的 2 Descriptor) 来 表示 ， 一 个 段 描 述 
符 占 8 字 节 。 段 描述 符 的 结构 如 下 图 所 示 : 


用 于 应 用 的 代码 段 和 数据 段 的 描述 但 
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图 2 段 描述 符 结构 


全 局 描述 符 表 


全 局 描述 符 表 的 是 一 个 保存 多 个 段 描 述 符 的 “数组 "， 其 起 始 地 址 保存 在 全 局 描述 符 表 寄存 器 
GDTR 中 。GDTR 长 48 位 ， 其 中 高 32 位 为 基地 址 ， 低 16 位 为 段 界限 。 由 于 GDT 不 能 用 GDT 本 
身 之 内 的 描述 符 进行 描述 定义 ， 所 以 采用 GDTR 寄 存 器 来 表示 GDT 这 一 特殊 的 系统 段 。 注 
意 ， 全 部 描述 符 表 中 第 一 个 段 描 述 符 设 定 为 空 段 描述 符 。GDTR 中 的 段 界 限 以 字 节 为 单位 。 对 
于 含有 N 个 描述 符 的 描述 符 表 的 段 描述 符 实际 所 占 空间 通常 可 设 为 8N， 若 起 始 地 址 为 
gqt base， 则 结束 地 址 为 gqt _base+8N-1。 可 参考 proj1 中 的 bootasm.S 中 的 gdt 标 号 和 gdtdesc 
标号 下 的 内 容 ， 以 及 lgdt 指 令 的 操作 数 。 全 局 描述 符 表 的 第 一 项 是 不 能 被 CPU 使 用 ， 所 以 当 
一 个 段 选择 子 的 索引 (Index) 部 分 和 表 指 示 位 (Table Indicator) 都 为 0 的 时 ( 即 段 选择 子 指 
向 全 局 描述 符 表 的 第 一 项 时 ) ， 可 以 当做 一 个 空 的 选择 子 。 当 一 个 段 寄存 器 被 加 载 一 个 空 选 
vy ， 处 理 器 并 不 会 产生 一 个 异常 。 但 是 ， 当 用 一 个 空 选 择 子 去 访问 内 存 时 ， 则 会 产生 蜡 

。 在 proj1 的 实验 中 ， 值 设置 了 三 个 段 描述 符 ， 即 NULL 段 、TEXT 段 和 DATA 段 (都 是 4GB 的 
访 a 范围 ) 。 


分 段 机 制 的 系统 寄存 器 


0 发 表 等 系统 数据 结构 ， 用 来 实现 段 式 内 存 管理 。 内 存 管 理 寄存 
器 包括 : 


全 局 描述 符 表 寄 存 器 (Global Descriptor Table Register，GDTR ) : 指向 全 局 段 描述 符 表 
GDT 

局 部 描述 符 表 寄 存 器 (Local Descriptor Table Register ，LDTR) : 指向 局 部 段 描述 符 表 
LDT (目前 用 不 上 ) 

中 断 门 描述 符 表 寄 存 器 (Interrupt Descriptor Table Register ， IDTR) : 指向 一 张 包含 中 断 
处 理子 程序 入 口 点 的 表 (IDT) 

王 务 寄存 器 (Task Register，TR) : 这 个 寄存 器 指向 当前 任务 信息 存放 处 ， 这 些 信息 是 处 
理 器 进行 任务 切换 所 需要 的 。 (目前 用 不 上 ) 80386 有 四 个 32 位 的 控制 寄存 器 ， 分 别 命 
名 位 CRO0、CR1、CR2 和 CR3。CR0 和 包含 指示 处 理 器 工作 方式 、 启 用 和 禁止 分 页 管理 机 
制 、 控 制 浮 点 协 处 理 器 操作 的 控制 位 。 具 体 描 述 如 下 : 

PE (保护 模式 允许 Protection Enable， 比 特 位 0) : 设置 PE 将 让 处 理 器 工作 在 保护 模 
式 下 。 复 位 PE 将 返回 到 实 模 式 工 作 。 

PG (分 页 允许 Paging， 比特 位 31) : PG 指明 处 理 器 是 否 通 过 页 表 来 转换 线性 地 址 到 
物理 地 址 。 在 后 续 试验 中 将 讲述 如 何 设置 PG 位 。CRO0 中 的 位 5~ 位 30 是 保留 位 ， 这 些 位 
的 值 必须 为 0。 CR2 及 CR3 由 分 页 管理 机 制 使 用 ， 将 在 后 续 试 验 中 讲述 。 在 80386 中 不 能 
使 用 CR1， 和 否则 会 引起 无 效 指令 操作 异常 。 


【实现 】 实 模式 到 保护 模式 的 切换 


BIOS 把 bootloader 从 硬盘 ( 即 是 我 们 刚才 生成 的 Ucore.img) 的 第 一 个 遍 区 〈( 即 是 我 们 刚才 生 
成 的 bootblock) 读 出 来 并 拷贝 到 内 存 一 个 特定 的 地 址 0x7c00 处 ， 然 后 BIOS 会 跳 转 到 那个 地 址 
( ( 即 CS=0，EIP=0x7c00) ) 继续 执行 。 至 此 BIOS 的 初始 化 工作 做 完了 ， 进 一 步 的 工作 交 
给 了 ucore 的 bootloader 。 


bootloader 从 哪里 开始 执行 呢 ? 我 们 【实验 2-2 编译 运行 bootloader】 中 描述 make 工 作 过 程 的 
第 五 步 就 是 生成 了 一 个 bootblock.asm， 它 的 前 面 几 行 是 : 


obj/bootblock.o: file format elf32-i386 
Disassembly of section .text: 
00007c00 <start>: 


.Set CRO_PE_ON, Ox1 # protected mode enable flag 
.globl start 
start: 

.Code16 # Assemble for 16-bit mode 

cli # Disable interrupts 

7c00: fa cli 


上 述 代码 片段 指出 了 bootblock ( 即 bootloader) 在 0x7c00 虚 拟 地 址 (在 这 里 虚拟 地 址 = 线性 地 
址 = 物理 地 址 ) 处 的 指令 为 ‘cli”， 如 果 读 者 再 回头 看 看 bootasm.S 中 的 12~15 行 : 


.globl start 


start: 
.Code16 # Assemble for 16-bit mode 
cli # Disable interrupts 
cld # String operations increment 


就 可 以 发 现 二 者 是 完全 一 致 的 。 而 这 个 虚拟 地 址 的 设 定 是 通过 链接 器 ld 完成 的 ， 我 们 【实验 2- 
2 编译 运行 bootloader】 中 描述 make 工 作 过 程 的 第 四 步 : i386-elf-ld -N -e start -Ttext 0x7C00 
-oO obj/bootblock.o obj/bootasm.o obj/bootmain.o 


其 中 “-e start* 指 出 了 bootblock 的 入 口 地 址 为 start， 而 “-Ttext 0x7C00” 指 出 了 代码 段 的 起 始 地 址 
为 0x7c00， 这 也 就 导致 start 位 置 的 虚拟 地 址 为 0x7c00。 


从 0x7c00 开 始 ，bootloader 用 了 21 条 汇编 指令 完成 了 初始 化 和 切换 到 保护 模式 的 工作 。 其 具 
体 步 骤 如 下 : 


1. 关中 断 ， 并 清除 方向 标志 ， 即 将 DF 置 “0"”， 这 样 (E)SI 及 (E)DI 的 修改 为 增 量 。 


cli # Disable interrupts 
cld # String operations increment 


2， 清 零 各 数据 段 寄存 器 : DS、ES、FS 


xorw %ax, %ax # Segment number zero 
movw %ax, %ds # -> Data Segment 
movw %ax,%es # -> Extra Segment 
movw %ax,%ss # -> Stack Segment 


3， 使 能 A20 地 址 线 ， 这 样 80386 就 可 以 突破 1MB 访 存 现在 ， 而 可 访问 4GB 的 32 位 地 址 空间 
了 。 可 回顾 2.2.1 节 的 【历史 : A20 地 址 线 与 处 理 器 向 下 兼容 】。 


Seta20.1: 
inb $0x64, %al # Wait for not busy 
testb $0x2,%al 
jnz seta20.1 
movb $0xd1, %al # Qxd1 -> port Ox64 
outb %al, $0Ox64 

seta20.2: 
inb $0x64, %al # Wait for not busy 
testb $0x2,%al 
jnz seta20.2 
movb $0xdf, %al # Qxdf -> port Ox60 


outb %al, $0x60 


4. 建立 全 局 描述 符 表 (可 回顾 2.2.3 节 对 全 局 描述 符 表 的 介绍 ) ， 使 能 80386 的 保护 模式 
(可 回顾 2.2.4 节 对 CR0 寄 存 器 的 介绍 ) 。lgdt 指 令 把 gdt 表 的 起 始 地 址 和 界限 (gdt 的 大 
小 -1) 装 入 GDTR 寄 存 器 中 。 而 指令 “mov|l %eax，%cr0” 把 保护 模式 开启 位 置 为 1， 这 时 
已 经 做 好 进入 80386 保 护 模式 的 准备 ， 但 还 没有 进入 80386 保 护 模式 


lgdt gdtdesc 


movl1 %crO, %eax 
orl $CRO_PE_ON, %eax 
movl1 %eax, %crO 


gdtdesc 指 出 了 全 局 描述 符 表 (可 以 看 成 是 段 描 述 符 组 成 的 一 个 数组 ) 的 起 始 位 置 在 gdt 符 
号 处 ， 而 gdt 符 号 处 放置 了 三 个 段 描述 符 的 信息 


gdt : 
SEG_NULLASM # Null seg 
SEG_ASM(STA Xx|STA _R, Ox©, QOxffffffff) # code seg 


SEG_ASM(STA W, OxO, QOxffffffff) # data seg 


每 个 段 描述 符 占 8 个 字 节 ， 第 一 个 是 NULL 段 描述 符 ， 没 有 意义 ， 表 示 全 局 描述 符 表 的 开 
始 ， 紧 接着 是 代码 段 描述 符 〈 位 于 全 局 描述 符 表 的 0x8 处 的 位 置 ) ， 具 有 可 读 (STA_R) 
和 可 执行 (STA_X) 的 属性 ， 并 且 段 起 始 地 址 为 0， 段 大 小 为 4GB ; 接 下 来 是 数据 段 描述 
符 〈 位 于 全 局 描述 符 表 的 0x10 处 的 位 置 ) ， 具 有 可 读 〈STA_R) 和 可 写 (STA_W) 的 属 
性 ， 并 且 段 起 始 地 址 为 0， 段 大 小 为 4GB 。 


. 通过 长 跳 转 指令 进入 保护 模式 。80386 在 执行 长 跳 转 指令 时 ， 会 重新 加 载 
$PROT MODE _CSEG 的 值 ( 即 0x8) 到 CS 中 ， 同 时 把 $protcseg 的 值 赋 给 EIP， 这 样 
80386 就 会 把 CS 的 值 作为 全 局 描述 符 表 的 索引 来 找到 对 应 的 代码 段 描 述 符 ， 设 定 当 前 的 
EIP 为 0x7c32( 即 protcseg 标 号 所 在 的 段 内 偏 移 )， 根 据 2.2.3 节 描述 的 分 段 机 制 中 虚拟 地 址 
到 线性 地 址 转换 转换 的 基本 过 程 ， 可 以 知道 线性 地 址 ( 即 物理 地 址 ) 为 : 


gdt[CS].base addr+EIP=0x0+0x7c32=0x7c32 
1jmp $PROT_MODE_CSEG, $protcseg 


， 执 行 完 上 面 的 这 条 汇编 语句 后 ，bootloader 让 80386 从 实 模 式 进 入 了 保护 模式 。 由 于 在 访 
问 数据 或 栈 时 需要 用 DS/ES/FS/GS 和 SS 段 寄存器 作为 全 局 描述 符 表 的 下 标 来 找到 相应 的 
段 描述 符 ， 所 以 还 需要 对 DS/ES/FS/GS 和 SS 段 寄存 器 进行 初始 化 ， 使 它们 都 指向 位 于 
0x10 处 的 段 描述 符 〈 即 gdt 中 的 数据 段 描述 符 ) 。 


movw $PROT_MODE_DSEG， %ax # Our data segment selector 
movw %ax, %ds # -> DS: Data Segment 

movw %ax, %es # -> ES: Extra Segment 
movw %ax, %fs # -> FS 

movw %ax, %gs # -> GS 

movw %ax, %ss # -> SS: Stack Segment 


在 保护 模式 下 ， 所 有 的 内 存 寻 址 将 经 过 分 段 机 制 的 存储 管理 来 完成 ， 即 每 个 虚拟 地 址 访 
问 将 经 过 分 段 机 制 转换 成 线性 地 址 ， 由 于 这 时 还 没有 启动 分 页 模式 ， 所 以 线性 地 址 就 是 
物理 地 址 。 


【人 实现】 设置 栈 


只 有 设置 好 的 合适 大 小 和 地 址 的 栈 内 存 空间 (简称 栈 空 间 ) ， 才 能 有 效 地 进行 函数 调用 。 这 
里 为 了 减少 汇编 代码 量 ， 我 们 就 通过 C 代 码 来 完成 显示 。 由 于 需要 调用 C 语 言 的 函数 ， 所 以 需 
要 自己 建立 好 栈 空 间 。 设 置 栈 的 代码 如 下 : 


movl1 $start, %esp 


由 于 start 位 置 (0x7c00) 前 的 地 址 空间 没有 用 到 ， 所 以 可 以 用 来 作为 bootloader 的 栈 ， 需 要 注 
意 栈 是 向 下 长 的 ， 所 以 不 会 破坏 start 位 置 后 面 的 代码 。 在 后 面 的 小 节 还 会 对 栈 进 行 更 加 深入 
的 讲解 。 我 们 可 以 通过 用 gdb 调 试 bootloader 来 进一步 观察 栈 的 变化 : 


【实验 】 用 gdb 调 试 bootloader 观 察 栈 信息 


1. 开 两 个 窗口 ; 在 一 个 窗口 中 ， 在 proj1 目 录 下 执行 命令 make ; 
2. 在 proj1 目 录 下 执行 “qemu -hda bin/ucore.img -S -s", 这 时 会 启动 一 个 qemu 窗 口 界 面 ， 处 
于 暂停 状态 ， 等 待 gdb 链 接 ; 
3. 在 另外 一 个 窗口 中 ， 在 proj1 目 录 下 执行 命令 gdb obj/bootblock.o ; 
4. 在 gdb 的 提示 符 下 执行 如 下 命令 ， 会 有 一 定 的 输出 : 
(gdb) target remote :1234  # 与 qemu 建 立 远程 链接 


(gdb) break bootasm.S:68 # 在 bootasm.S 的 第 68 行 “mov1 $start，%esp” 设 置 一 个 断 点 
(gdb) continue # 让 demu 继 续 执行 


这 时 qemu 会 继续 执行 ， 但 执行 到 bootasm.S 的 第 68 行 时 会 暂停 ， 等 待 gdb 的 控制 。 这 时 
可 以 在 gdb 中 继续 输入 如 下 命令 来 分 析 栈 的 变化 : 


(gdb) info registers esp 


esp Oxffd6  Qxffd6 # 没 有 执行 第 68 行 代码 前 的 esp 值 

(gdb) si # 执 行 第 68 行 代码 

69 call bootmain 

(gdb) info registers esp 

esp 0x7c00 “9x7c099 ”# 当 前 的 esp 值 ， 即 栈 顶 

(gdb) si 

bootmain () at boot/bootmain.c:87 # 执 行 Call 汇 编 指令 

87 bootmain(void) { 

(gdb) info registers esp 

esp Ox7bfc  Qx7bfc # 当 前 的 esp 值 OX7bfc，9x7bfc 处 存放 了 bootmain 函 数 


的 返回 地 址 9x7c4a， 这 可 以 通过 下 面 两 个 命令 了 解 
(gdb) x /4x 9x7bfc 


QOx7bfc: 0x00007c4a Qxc031fcfa 0xc098ed88e Ox64e4d08e 
(gdb) x /4i QOx7c40 

Ox7c40 <protcseg+14>: mov $0x7c00, %esp 

Qx7c45 <protcseg+19>: call QOx7c6c <bootmain> 

QOx7c4a <spin>: jmp Ox7c4a <spin> 

QOx7c4c <gdt>: add %al, (%eax) 


【提示 】 
在 proj1 中 执行 


make debug 


则 自动 完成 上 述 大 部 分 前 期 工作 ， 即 qemu 和 gdb 的 加 载 ， 且 gdb 会 自动 建立 于 qemu 的 联接 并 
设置 好 断 点 。 具 体 实 现 可 参看 proj1 的 Makefile 中 于 debug 相 关 的 内 容 和 tools/gdbinit 中 的 内 


从 


个 ” 


【实现 】 显 示 字 符 串 


bootloader 只 在 CPU 和 内 存 中 打转 无 法 让 读者 很 容易 知道 bootloader 的 工作 是 否 正常 ， 为 此 在 
成 功 完 成 了 保护 模式 的 转换 后 ， 就 需要 通过 显示 字符 串 来 展示 一 下 自己 了 。bootloader 设 置 好 
栈 后 ， 就 可 以 调用 bootmain 函 数 显 示 字 符 串 了 。 在 proj1 中 使 用 了 显示 器 和 并 口 两 种 外 设 来 显 

示 字 符 串 ， 主 要 的 代码 集中 在 bootmain.c 中 。 


这 里 采用 的 是 很 简单 的 基于 Programmed I/O (PIO) 方式 ，PIO 方 式 是 一 种 通过 CPU 执行 IO 
端口 指令 来 进行 数据 读 写 的 数据 交换 模式 ， 被 广泛 应 用 于 硬盘 、 光 驱 等 设备 的 基础 传输 模式 
中 。 这 种 MO 访问 方式 使 用 CPU MO 端 口 指令 来 传送 所 有 的 命令 、 状 态 和 数据 ， 需 要 CPU 全 程 
参与 ， 效 率 较 低 ， 但 编程 很 简单 。 后 面 讲 到 的 中 断 方式 将 更 加 高 效 。 在 bootmain.c 中 的 
Ipt_putc 有 函数 完成 了 并 口 输出 字符 的 工作 。 和 输出 一 个 字符 的 流程 《可 参看 bootmain.c 中 的 
lpc_putc 骂 数 实 现 ) 大 致 如 下 : 


1， 读 I/O 端 口 地 址 0x379， 等 待 并 口 准 备 好 ; 
2， 向 Il/O 端 口 地 址 0x378 发 出 要 输出 的 字符 ; 
3， 向 I/ 端口 地 址 0x37A 发 出 控制 命令 ， 让 并 口 处 理 要 输出 的 字符 。 


在 bootmain.c 中 的 serial_putc 亟 数 完成 了 串口 输出 字符 的 工作 。 输 出 一 个 字符 的 流程 (可 参看 
bootmain.c 中 的 serial _putc 函 数 实 现 ) 大 致 如 下 : 


1. 读 JVO 端 口 地 址 (0x3f8+5) 获 得 LSR 寄 存 器 的 值 ， 等 待 串口 输出 准备 好 ; 
2， 向 1/O 端 口 地 址 0x3f8 发 出 要 输出 的 字符 ; 


在 bootmain.c 中 的 cga_putc 函 数 完 成 了 CGA 字 符 方式 在 某 位 置 输出 字符 的 工作 。 和 输出 一 个 字 
符 的 流程 《可 参看 bootmain.c 中 的 cga_putc 函 数 实现 ) 大 致 如 下 : 


1， 写 JO 端 口 地址 0x3d4， 读 MO 端口 地 址 0x3d5， 获 得 当前 光标 位 置 ; 
2.， 在 光标 的 下 一 位 置 的 显存 地 址 空间 上 号 字符 ， 格 式 是 黑色 背景 /白色 字符 ; 
3. 设置 当前 光标 位 置 为 下 一 位 置 。 


proj1 启 动 后 的 PC 机 内 存 布局 如 下 图 所 示 : 


实际 物理 内 存 大 小 






4— 0x00100000 (1NB 
0x000F0000 (960KB) 


Ox00000000 (768KB) 
0x000HBDO0 


Ox000B8000 
0x000AD000 (640KB) 


基于 boot 1 oa der 大 小 
0x00007000 
基于 对 堆栈 的 使 用 情况 


4— D0x00000000 


自 此 ， 我 们 了 解 了 一 个 小 巧 的 bootloader 的 实现 过 程 ， 但 这 还 仅仅 是 百 尺 竿 头 的 第 一 步 ， 它 还 
只 能 显示 字符 串 ， 不 能 加 载 操作 系统 。 我 们 还 需要 扩展 bootloader 的 功能 ， 让 它 能 够 加 载 操 作 
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可 读 ELF 格 式 文件 的 baby bootloader 


实验 目标 


接 下 来 ， 我 们 需要 完成 一 个 能 够 读 取 位 于 硬盘 中 OS 的 代码 内 容 并 加 载运 行 OS 的 bootloader ， 
这 需要 bootloader 能 够 读 取 硬盘 肩 区 中 的 数据 。 由 于 OS 采用 ELF 执 行文 件 格 式 ， 所 以 
bootloader 能 够 解析 ELF 格 式 文件 ， 把 其 中 的 代码 和 数据 放 到 内 存 中 正确 的 位 置 。Bootloader 
虽然 增加 了 这 么 多 功能 ， 但 整个 bootloader 的 大 小 还 是 必须 小 于 512 个 字 节 ， 这 样 才 能 放 到 只 
有 512 字 节 大 小 的 硬盘 主 引 导 遍 区 中 。 


Ucore 内 核 不 一 定 非 要 是 ELF 格 式 ， 基 于 binary 格 式 的 ucore 内 核 也 可 以 被 bootloader 识 别 
与 加 载 。 


通过 分 析 和 实现 这 个 bootloader， 读 者 对 设备 管理 的 方式 会 有 更 加 深入 的 理解 ， 掌 握 
bootloader/ 操 作 系 统 等 底层 系统 软件 是 如 何在 保护 模式 下 通过 PIO (Programming lI/O， 可 编 
程 JO ) 方式 访问 块 设备 硬盘 ; 理解 如 何在 保护 模式 下 解析 并 加 载 一 个 简单 的 ELF 执 行文 件 。 


proj2/3 概 述 


实现 描述 


proj2 基 于 proj1 的 主要 实现 一 个 可 读 硬 盘 并 可 分 析 ELF 执 行文 件 格式 的 bootloader， 由 于 
bootloader 要 放 在 512 字 节 大 小 的 主 引导 遍 区 中 ， 所 以 不 得 不 去 掉 部 分 显示 输出 的 功能 ， 确 保 
整个 bootloader 的 大 小 小 于 510 个 字 节 (最 后 两 个 字 节 用 于 硬盘 主 引 导 肩 区 标识 ， 

即 “55AA”) 。proj3 在 proj2 的 基础 上 增加 了 一 个 只 能 显示 字符 的 第 一 代 幼 稚 型 操作 系统 
ucore， 用 来 验证 proj2 实 现 的 bootloader 能 够 正确 从 硬盘 读 出 ucore 并 加 载 到 正确 的 内 存 位 
置 ， 并 能 把 CPU 控制 权 交 给 ucore。ucore 在 获得 CPU 控制 权 后 ， 能 够 在 保护 模式 下 显示 一 个 
字符 串 ， 表 明 自 己 能 够 正常 工作 了 


项 目 组 成 


这 里 我 们 分 了 两 个 project 来 完成 此 事 。proj2 是 一 个 可 分 析 ELF 执 行文 件 格式 的 例子 ，proj2 整 
体 目 录 结 构 如 下 所 示 : 


|-- bootasm.S 
-- bootmain.c 


|-- elf.h 

|-- types.h 

-- X86.h 
-- Makefile 


proj2 与 proj1 类 似 ， 只 是 增加 了 libs/elf.h 文 件 ， 并 且 bootmain.c 中 增加 了 对 ELF 执 行文 件 的 简单 
解析 功能 和 读 磁 盘 功 能 。 


proj3 建 立 在 proj2 基 础 之 上 ， 增 加 了 一 个 只 能 显示 字符 的 Ucore 操 作 和 系统， 让 bootloader 能 够 把 
这 个 操作 系统 从 硬盘 上 读 到 内 存 中 ， 并 跳 转 到 ucore 的 起 始 处 执行 ucore 的 功能 。proj3 整 体 目 
录 结 构 如 下 所 示 : 


|-- bootasm.S 
`“-- bootmain.c 


| 

| |-- console.c 
| `“-- console.h 
| 

| 


-- elf.h 
-- error.h 
-- printfmt.c 


| 

| 

| 

|-- stdarg.h 

|-- stdio.h 

|-- string.c 

|-- string.h 

|-- types.h 
`“-- x86.h 

-- Makefile 


proj3 相 对 于 proj2 增 加 了 ucore 相 关 的 文件 ， 下 面 简要 说 明 一 下 : 


e libs 目 录 下 的 printfmt.c : 完成 类 似 C 语 言 的 printf 中 的 格式 化 处 理 ; 


。 libs 目 录 下 的 string.c : 完成 类 似 C 语 言 的 strs** 相 关 的 字符 串 处 理 函 数 ; 

e libs 目 录 下 的 st*.h : 是 支持 上 述 两 个 库 函 数 〈 可 被 内 核 和 用 户 应 用 共享 ) 的 .h 文 件 ; 
e kern/init 目 录 下 的 init.c : 完成 ucore 的 初始 化 工作 ; 

。 kern/driver 目 录 下 的 console.c : 提供 并 口 / 串 口 /CGA 方 式 的 字符 输出 的 console 驱 动 
。 kern/libs/stdio.c : 提供 内 核 方 式 下 的 的 cprintf 函 数 功能 ; 


编译 运行 


那 接 下 来 是 如 何 生成 一 个 包含 了 bootloader 和 Ucore 操 作 系 统 的 硬盘 镜像 呢 ? 我 们 先 修改 proj3 
目录 下 的 Makefile， 在 其 第 五 行 


V := @ 


的 最 前 面 增加 一 个 “# (目的 是 让 make 工 具 程 序 详细 显示 整个 project 的 编译 过 程 ) ， 这 样 就 把 
这 行 给 注释 了 。 然 后 在 proj3 目 录 下 执行 make， 可 以 看 到 : 


ld -m elf_i386 -Ttext Ox100000 -e kern_init -o bin/kernel obj/kern/init/ini 
t.o obj/kern/libs/printf.o obj/kern/driver/console.o obj/libs/printfmt.o obj/libs/stri 
ng.o 


dd if=bin/kernel of=bin/ucore.img seek=1 conv=notrunc 


这 两 步 是 生成 Ucore 的 关键 。 第 一 步 把 ucore 涉 及 的 各 个 .0 目标 文件 链接 起 来 ， 并 在 bin 目 录 下 
形成 ELF 文 件 格式 的 文件 kernel， 这 就 是 我 们 第 一 个 ucore 操 作 系 统 ， 而 且 设 定 uUcore 的 执行 入 
口 地 址 在 0xX10000， 即 kern_init 部 数 的 起 始 位 置 。 这 也 就 意味 着 bootloader 需 要 把 读 出 的 
kernel 文 件 的 代码 段 + 数 据 段 放置 在 0x10000 起 始 的 内 存 空间 。 第 二 步 是 把 bin 目 录 下 的 kernel 
文件 直接 覆盖 到 ucore.img (虚拟 硬盘 的 文件 ) 的 bootloader 所 处 遍 区 ( 即 第 一 个 扁 区 ， 主 引 
导 遍 区) 之 后 的 遍 区 (第 二 个 遍 区 ) 。 如 果 一 个 遍 区 大 小 为 512 字 节 ， 这 kernel 履 盖 的 遍 区 数 
为 上 取 整 《kernel 的 大 小 /512 字 节 ) 。 


编译 后 运行 proj3 的 示意 图 如 下 所 示 : 


1[qemu_chal](figures/Xdemu_cha2 .jpg ) 


【 硼 


景 ] 访问 硬盘 数据 控制 


bootloaderiF80386 处 理 器 进入 保护 模式 后 ， 下 一 步 的 工作 就 是 从 硬盘 上 加 载 并 运行 QOS。 考 
虑 到 实现 的 简单 性 ，bootloader 的 访问 硬盘 都 是 LBA 模 式 的 PIO (Program IO ) 方式 ， 即 所 有 
的 MO 操作 是 通过 CPU 访问 硬盘 的 MO 地 址 寄存 器 完成 


ny (是 硬盘 的 |/O 控 制 器 ) ， 每 个 通道 可 以 接 2 个 IDE 硬 盘 。 第 一 个 IDE 通 
过 访问 IJO 地 址 0x1fO0-0x1f7 来 实现 ， 第 二 个 IDE 通 道 。 问 Ox170-0x17f 实 现 。 每 个 通道 
， 择 通过 第 6 个 JUJO 偏 移 地 址 寄存 器 来 设置 。 具 体 参 数 见 下 表 。 


I/0 地 址 功能 


QOx1f0 
QOx1f2 
QOx1f3 
QOx1f4 
QOx1f5 
QOx1f6 


第 6 位 : 


OXx1f7 


读数 据 ， 当 9Xx1f7 不 为 忙 状 态 时 ， 可 以 读 。 
要 读 写 的 遍 区 数 ， 每 次 读 写 前 ， 需 要 指出 要 读 写 几 个 扁 区 。 
如 果 是 LBA 模 式 ， 就 是 LBA 参 数 的 9-7 位 
如 果 是 LBA 模 式 ， 就 是 LBA 参 数 的 8-15 位 
如 果 是 LBA 模 式 ， 就 是 LBA 参 数 的 16-23 位 
第 9~3 位 : 如 果 是 LBA 模 式 就 是 24-27 位 第 4 位 :为 9 主 盘 ; 为 1 从 瘟 
为 1=LBA 模 式 ; 9 = CHS 模 式 第 7 位 和 第 5 位 必须 为 1 
状态 和 命令 寄存 器 。 操 作 时 先 给 命令 ， 再 读 取 内 容 ; 如 果 不 是 忙 状态 就 从 9Xx1f9 端 口 读数 据 


硬盘 数据 是 储存 到 硬盘 扁 区 中 ， 一 个 扁 区 Cy sa 。 读 一 个 该 区 的 流程 大 致 为 通过 outb 
指令 访问 IO 地 址 :0x1f2~-0x1f7 来 发 出 读 遍 区 命令 ， 通 过 in 指令 了 解 硬盘 是 否 空闲 且 就 绪 ， 如 
果 空 闲 且 就 绪 ， 则 通过 inb 指 令 读 取 硬 僵局 区 a o。 可 进一步 参看 bootmain.c 中 的 
readsect 辑 数 实现 来 了 解 通过 PIO 方 式 访问 硬盘 肩 区 的 过 程 。 


【背景 ] 理解 ELF 文 件 格 式 


由 于 本 章 的 project 中 ，bootloader 会 访问 ELF(Executable and linking format) 格 式 的 Ucore， 并 
把 Ucore 加 载 到 内 存 中 。 所 以 ， 在 这 里 我 们 需要 简单 介绍 一 下 ELF 文 件 格 式 ， 以 帮助 我 们 理解 
Ucore 的 整个 编译 、 链 接 和 加 载 的 过 程 ， 特 别 是 希望 读者 对 Id 链接 器 用 到 的 链接 地 址 (Link 
address ) 和 操作 系统 相关 的 加 载 地 址 (Load address) 有 更 清楚 的 了 解 。 


ELF 文 件 格式 是 Linux 系 统 下 的 一 种 常用 目标 文件 (object file) 格 式 ， 有 三 种 主要 类 型 。 可 重 定 
位 文件 (relocatable file) 类 型 和 共享 目标 文件 (shared object file) 类 型 在 本 实验 中 没有 涉及 。 本 
实验 的 OS 文件 类 型 是 可 执行 文件 (executable file) 类 型 ， 这 种 ELF 文 件 格 式 类 型 提供 程序 的 进 
程 映像 ， 加 载 程 序 的 内 存 地 址 描述 等 。 

简单 地 说 ，bootloader 通 过 解析 ELF 格 式 的 Ucore， 可 以 了 解 到 Ucore 的 代码 段 (机 器 码 ) /数据 
段 (初始 化 的 变量 ) 等 在 文件 中 的 位 置 和 大 小 ， 以 及 应 该 放 到 内 存 中 的 位 置 ; 可 了 解 ucore 的 
BSS 段 (未 初始 化 的 变量 ， 具 体内 容 没有 保存 在 文件 中 ) 的 内 存 位 置 和 大 小 。 这 样 bootloader 
就 可 以 把 ucore 正 确 地 放置 到 内 存 中 ， 便 于 ucore 的 正确 执行 。 


这 里 只 分 析 与 本 章 相 关 的 ELF 可 执行 文件 类 型 。ELF 的 执行 文件 映像 如 下 所 示 : 


ELFH 执行 映像 


e zdent EE LiF 
,A | (Ix S148II9 0 
ephoff E 52 

e Phentsize 2 


e Phnum | 





P_tyPe pl LOAI 
p_offset | 
和 愧 惠 闷 P_vaddr 人 
p_filez PR532 
P_Imemsz PR9532 
P_fla gs pF R, PE X 
P_tyPe pT LGAI ) 
p_offset 8530 
p_vaddr IIxRINSOEBBR 
物 惠 大 p_filesz I3310N) 
p_memsz 4248 
p_flags PE RPEX 








— | 


代码 


数据 





仆人 简单 的 ELF 可 执行 文件 的 布 





ELF 的 文件 头 包 含 整个 执行 文件 的 数据 结构 elf header， 描 述 了 整个 执行 文件 的 组 织 结 构 。 其 
定义 在 proj2/3 中 的 elf.h 文 件 中 : 


Struct elfhdr { 


Uint32_t e_magic // must equal ELF_MAGIC 
uint8_t e_elf[12]; 
uint16_t e_type; // 1=relocatable, 2=executable, 3=shared object, 4=core imag 


uint16_t e_ machine,; // 3=x86, 4=68K, etc. 
uint32_t e_version,; // file version, always 1 


uint32_t e_entry; // entry point if executable 

uint32_t e_phoff ， // file position of program header or 0 
uint32_t e_shoff,; // file position of section header or 0 
uint32_t e_flags; // architecture-specific flags, usually 0 
uint16_t e_ehsize; // size of this elf header 


uint16_t e phentsize; // size of an entry in program header 

uint16_t e_phnum; // number of entries in program header or 0 

uint16_t e_ shentsize; // size of an entry in section header 

uint16 t e_shnum; // number of entries in section header or 0 

uint16 _t e shstrndx; // section number that contains section name strings 


}; 


program header 描 述 与 程序 执行 直接 相关 的 目标 文件 结构 信息 ， 用 来 在 文件 中 定位 各 个 段 的 
映像 ， 同 时 包含 其 他 一 些 用 来 为 程序 创建 进程 映像 所 必需 的 信息 。 可 执行 文件 的 程序 前 面部 
分 有 一 个 program header 结 构 的 数组 ， 每 个 结构 描述 了 一 个 “ 段 ”(segment) 或 者 准备 程序 执 
行 所 必需 的 其 它 信息 。 目 标 文件 的 “ 段 ”(segment) 包含 一 个 或 者 多 个 “ 节 区 ”(section) ， 
也 就 是 “ 段 内 容 (Segment Contents) ”。program header 仅 对 于 可 执行 文件 和 共享 目标 文件 
有 意义 。 可 执行 目标 文件 在 elfhdr 的 e_phentsize 和 e_phnum 成 员 中 给 出 其 自身 程序 头 部 的 大 
小 。 程 序 头 部 的 数据 结构 如 下 表 所 示 : 


Struct proghdr { 
uint32_t p_type // loadable code or data, dynamic linking info,etc. 
uint32_t p_offset; // file offset of segment 
uint32_t p_va; // virtual address to map segment 
uint32_t p_pa; // physical address, not used 
uint32_t p_filesz; // Size of segment in file 
Uint32_t p_memsz; // size of segment in memory (bigger if contains bss) 
uint32_t p_flags; // read/write/execute bits 
Uint32 _t p_align; // required alignment, invariably hardware page size 


}; 


链接 地 址 (Link address) 和 加 载 地 址 (Load address ) 


Link Address 是 指 编译 器 指定 代码 和 数据 所 需要 放置 的 内 存 地 址 ， 由 链接 器 配置 。Load 
Address 是 指 程序 被 实际 加 载 到 内 存 的 位 置 。 一 般 由 可 执行 文件 结构 信息 和 加 载 器 可 保证 这 两 
个 地 址 相同 。Link Addr 和 LoadAddr 不 同 会 导致 : 


直接 跳 转 位 置 错误 
直接 内 存 访 问 ( 只 读数 据 区 或 bss 等 直接 地 址 访问 ) 错 误 
堆 和 栈 等 的 使 用 不 受 影 响 ， 但 是 可 能 会 覆盖 程序 、 数 据 区 域 


也 存在 Link 地 址 和 Load 地 址 不 一 样 的 情况 〈 如 动态 链接 库 ) 。 在 proj3 中 ，bootloader 和 ucore 
的 链接 地 址 和 加 载 地 址 是 一 致 的 。 


背景 : 理解 ELF 文 件 格式 


链接 地 址 和 装载 地 址 的 区 别 


链接 地 址 
0x12345600 


装载 地 址 
0x43216500 











可 执行 文件 


【背景 】 操 作 系 统 执行 代码 的 组 成 


Ucore 通 过 gcc 编 译 和 ld 链接 ， 形 成 了 ELF 格 式 执行 文件 kernel (位 于 bin 目 录 下 ) ， 这 样 kernel 
的 内 部 组 成 与 一 般 的 应 用 程序 差别 不 大 。 一 般 而 言 ， 一 个 执行 程序 的 内 容 是 至 少 由 bss 段 、 
data 段 、text 段 三 大 部 分 组 成 。 


e。BSS 段 : BSS (Block Started by Symbol) 段 通 常 是 指 用 来 存放 执行 程序 中 未 初始 化 的 全 
局 变量 的 一 块 存储 区 域 。BSS 段 属于 静态 内 存 分 配 的 存储 空间 。 

e 数据 段 : 数据 段 (Data Segment) 通常 是 指 用 来 存放 执行 程序 中 已 初始 化 的 全 局 变量 的 
一 块 存储 区 域 。 数 据 段 属于 静态 内 存 分 配 的 存储 空间 。 

。 代码 段 : 代码 段 (Code Segment/Text Segment) 通常 是 指 用 来 存放 程序 执行 代码 的 一 
块 存储 区 域 。 这 部 分 区 域 的 大 小 在 程序 运行 前 就 已 经 确定 ， 并 且 内 存 区 域 通常 属于 只 读 ， 
某 些 CPU 架构 也 允许 代码 段 为 可 写 ， 即 允许 修改 程序 。 在 代码 段 中 ， 也 有 可 能 包含 一 些 
只 读 的 常数 变量 ， 例 如 字符 串 常量 等 。 


ucore 和 一 般 应 用 程序 一 样 ， 首 先是 保存 在 像 硬盘 这 样 的 非 易 失 性 存储 介质 上 ， 当 需要 运行 
时 ， 被 加 载 到 内 存 中 。 这 时 ， 需 要 把 代码 段 、 数 据 段 的 内 容 拷贝 到 内 存 中 。 对 于 位 于 BSS 段 
中 的 未 初始 化 的 全 局 变量 ， 执 行程 序 一 般 认为 其 值 为 零 。 所 以 需要 把 BSS 段 对 应 的 内 存 空间 
清 零 ， 确 保 执 行 代码 的 正确 运行 。 可 查看 init 文 件 中 的 kern_init 函 数 的 第 一 个 执行 语 

名 “memset(edata, 0, end - edata);”。 


随 着 Ucore 的 执行 ， 可 能 需要 进行 函数 调用 ， 这 就 需要 用 到 栈 (stack) ; 如 果 需 要 动态 申请 内 
存 ， 这 就 需要 用 到 堆 (heap) 。 堆 和 栈 是 在 操作 系统 执行 过 程 中 动态 产生 和 变化 的 ， 并 不 存 
在 于 表示 内 核 的 执行 文件 中 。 栈 又 称 堆栈 ， 是 用 户 存 放 程 序 临 时 创建 的 局 部 变量 ， 即 函数 中 
定义 的 变量 (但 不 包括 static 声 明 的 变量 ，static 意 味 着 在 数据 段 中 存放 变量 ) 。 除 此 以 外 ， 在 
函数 被 调用 时 ， 其 参数 也 会 被 压 入 发 起 调用 有 函数 的 栈 中 ， 并 且 待 到 调用 结束 后 ， 函 数 的 返回 
值 也 会 被 存放 回 栈 中 。 由 于 栈 的 先进 后 出 特点 ， 所 以 栈 特别 方便 用 来 保存 /恢复 调用 现场 。 可 
以 把 栈 看 成 一 个 寄存 、 交 换 临 时 数据 的 内 存 区 。 扒 是 用 于 存放 运行 中 被 动态 分 配 的 内 存 空 

间 ， 它 的 大 小 并 不 固定 ， 可 动态 扩张 或 缩减 ， 这 需要 操作 系统 自己 进行 有 效 的 管理 。 


【 实现 】 bootloader 加 载 并 运行 ucore 


了 解 完 proj2/3 的 组 成 与 编译 ， 并 大 致 理 解 上 述 两 个 背景 知识 后 ， 我 们 就 可 以 分 析 bootloader 加 
载 并 运行 Ucore 操 作 系 统 的 工作 流程 。 


硬盘 数据 是 储存 到 硬盘 遍 区 中 ， 一 个 扁 区 大 小 为 512 字 节 。 读 一 个 扇 区 的 流程 可 参看 
bootmain.c 中 的 readsect 冰 数 实现 。 大 致 如 下 : 


读 |/O 地 址 0x1f7， 等 待 磁盘 准备 好 ; 

写 MO 地 址 0x1f2~0x1f5,0x1f7， 发 出 读 取 第 offseet 个 扇 区 处 的 磁盘 数据 的 命令 ; 
读 |/O 地 址 0x1f7， 等 待 磁盘 准备 好 ; 

连续 读 IJO 地 址 0x1f0， 把 磁盘 扁 区 数据 读 到 指定 内 存 。 


上 Nm 一 


这 个 函数 是 被 bootloader 用 于 读 取 硬盘 上 的 Ucore 操 作 系 统 。bootloader 为 了 读 取 硬盘 上 的 
Ucore 操 作 系 统 ， 将 调用 bootmain 函 数 首 先 读 取 了 位 于 主 引 导 遍 区 的 后 的 连续 8 个 遍 区 (可 参 
见 bootmain 骂 数 中 的 第 一 条 语句 ) ， 并 把 数据 放 到 0x10000 处 (可 回顾 一 下 2.7.1 中 描述 链接 
bin/kernel 的 过 程 ) ， 并 按照 数据 结构 elfhdr 来 解析 这 块 4KB 大 小 的 数据 ; 如 果 其 e_magic 数 据 
域 不 等 于 ELF_ MAGIC ( 即 0x464C457F) ， 则 表示 这 个 不 是 标准 的 ELF 格 式 的 文件 ; 如 果 等 
于 ELF_MAGIC， 则 继续 解析 ， 并 根据 其 e_phnum 数 据 域 的 值 来 读 取 多 个 program header ， 
并 根据 program header 的 信息 ， 了 解 到 ucore 中 各 个 segment 的 起 始 位 置 和 大 小 ， 然 后 把 放 在 
硬盘 上 的 相关 segment 读 入 到 内 存 中 。 


【实验 】 分 析 kernel 并 在 bootloader 中 显示 kernel 的 segment 信 息 


1. 在 proj3 目 录 下 执行 命令 make， 则 会 在 bin 目 录 下 生成 kernel， 即 ELF 执 行 格式 文件 的 操作 
系统 Ucore ; 
2， 在 proj3 目 录 下 执行 命令 readelf -h bin/kernel， 可 得 到 有 关 elf header 的 如 下 信息 


ELF Header : 


Magic : 7f 45 4c 46 01 01 01 00 00 00 00 00 00 00 00 00 


Class: 

Data: 

Version: 

OS/ABI: 

ABI Version: 

Type: 

Machine: 

Version: 

Entry point address: 

Start of program headers: 
Start of section headers: 
Flags: 

Size of this header: 

Size of program headers: 
Number of program headers: 
Size of section headers: 
Number of section headers: 


ELF32 

2's complement, little endian 
1 (current) 

UNIX - System V 

0 

EXEC (Executable file) 
Intel 80386 

Ox1 

Ox100000 

52 (bytes into file) 
19872 (bytes into file) 
Ox0 

52 (bytes) 

32 (bytes) 

3 

40 (bytes) 

sy 


Section header string table index: 14 


从 中 ， 我 们 可 以 看 到 kernel 的 入 口 点 在 0x100000，program header 相 对 文件 的 偏 移 位 置 
在 52，elf header 的 大 小 为 52 字 节 ，program header 的 大 小 为 32 字 节 。 


3. 在 proj3 目 录 下 执行 命令 readelf -| bin/kernel， 可 得 到 有 关 program header 的 如 下 信息 


Elf file type is EXEC (Executable file) 


Entry point Ox100000 
There are 3 program headers, 


Program Headers: 


starting at offset 52 


Type Offset VirtAddr PhysAddr FileSiz MemSiz Flg Align 
LOAD Ox001000 0Xx00100000 0x00100000 Ox01038 Ox01038 R E Ox1000 
LOAD Ox002038 0Xx00102038 0x00102038 Ox00004 Ox00004 RW QOx1000 
GNU_STACK 0Xx000000 0x00000000 0Xx00000000 0x00000 OxOO000 RW 0x4 


Section to Segment mapping: 
Segment Sections... 


00 .text .rodata 
01 .data 
02 


从 中 ， 我 们 可 以 看 到 kernel 的 入 口 点 在 0x100000， 代 码 段 位 于 0x100000， 大 小 为 0x1038 ; 数 


据 段 位 于 0x102038， 大 小 为 0x04。 


【实验 】 用 gdb 调 试 bootloader， 并 在 gdb 中 显示 kernel 的 segment 信 息 


我 们 还 可 通过 用 gdb 调 试 bootloader 进 行 验证 ， 具 体 步 骤 如 下 : 


开 两 个 窗口 ; 在 一 个 窗口 中 ， 在 proj3 目 录 下 执行 命令 make ; 

在 proj3 目 录 下 执行 “qemu -hda bin/ucore.img -S -Ss”, 这 时 会 启动 一 个 qemu 窗 口 界 面 ， 处 
于 暂停 状态 ， 等 待 gdb 链 接 ; 

在 另外 一 个 窗口 中 ， 在 proj3 目 录 下 执行 命令 gdb obj/bootblock.o ; 

在 gdb 的 提示 符 下 执行 如 下 命令 ， 会 有 一 定 的 输出 : 


(gdb) target remote :1234  # 与 qemu 建 立 远程 链接 
(gdb) break bootmain.c:100 # 在 bootmain.c 的 第 100 行 设置 一 个 断 点 
(gdb) continue # 让 qemu 继 续 执 行 


Re 


这 时 qemu 会 继续 执行 ， 但 执行 到 bootmain.c 的 第 100 行 时 会 暂停 ， 等 待 gdb 的 控制 。 这 时 
可 以 在 gdb 中 继续 输入 如 下 命令 来 参考 kernel 的 信息 : 


(gdb) p /x *(struct elfhdr *)9x10009 # 按 struct elfhdr 结 构 显示 9Xx10000 处 内 容 

$7 = {e_magic = Ox464c457f, e_elf = {Ox1，0x1，0Xx1，0xX0，0Xx0，0x06，0x96，0x0，0x9， 
Ox0, QOxO, Ox0O}, e_type = Ox2, e_machine = QOx3, e_version = Ox1, e_entry = Ox10000 
0, e_phoff = QOx34, e_shoff = Ox4550, e_flags = Ox0, e_ehsize = Ox34, e_phentsize = 
Ox20, e_phnum = Ox3, e_shentsize = Ox28, e_shnum = 0x11，e_shstrndx = Oxe} 


查看 bootmain 哆 数 ， 可 以 知道 ， 此 时 在 0x10000 处 已 经 读 入 了 kernel 的 ELF 头 信息 ， 有 三 


个 program header 表 (e_phnum 值 ), 继 续 在 gdb 中 斋 入 命令 ， 可 以 得 到 更 多 信息 : 


(gdb) next # 执 行 下 一 条 指令 

(gdb) p /x *ph # 获 得 text 段 的 program header 表 信息 

$5 = {p_type = Ox1, p_offset = Ox1000, p_va = Ox100000, p_pa = Ox100000, p_filesz 
= Ox1038, p_memsz = Ox1038, p_flags Ox5, p_align = Ox1000} 


(gdb) next # 执 行 下 一 条 指令 
(gdb) next # 执 行 下 一 条 指令 
(gdb) p /x *ph # 获 得 data 段 的 program header 表 信息 


$6 = {p_type = Ox1, p_offset = Ox2038, p_va = 0x102038，p_pa = Ox102038, p_filesz 
= Ox4, p_memsz = Ox4, p_flags = Ox6, p_align = Ox1000} 


对 照 readelf 命 令 输出 的 信息 ， 可 以 发 现 bootloader 正 确 读 出 了 text 段 和 data 段 的 program 
header 表 信息 ， 并 根据 这 些 信 息 调 用 如 下 函数 


-->readseg(ph->p_va, ph->p_memsz, ph->p_offset); 
-->readsect((uint8_t *)va, offset); 


把 这 两 个 段 的 内 容 读 入 到 正确 的 线性 内 存 地 址 中 。 然 后 再 根据 e_entry = 0x100000， 跳 转 
到 0x100000 处 去 执行 ， 这 其 实 就 是 把 处 理 器 控制 权 转 移 给 了 Ucore 了 。 


【实现 】 可 输出 字符 串 的 ucore 


proj3 包 含 了 一 个 只 能 输出 字符 串 的 简单 ucore 操 作 系 统 ， 虽 然 简单 ， 但 它 也 体现 了 操作 系统 的 
一 些 结构 和 特征 ， 比 如 它 具 有 : 


。 完成 给 ucore 的 BSS 段 清 零 并 显示 一 个 字符 串 的 内 核 初始 化 子 系统 (init.c) 
e。 提供 串口 /并 口 /CGA 显 示 的 驱动 程序 子 系统 (console.c) 
。 提供 公共 服务 的 操作 系统 函数 库 子 系 统 (printf.c printfmt.c string.c) 


这 体现 了 操作 系统 的 一 个 基本 特征 : 资源 管理 器 。 从 操作 系统 原理 我 们 可 以 知道 一 台 计算 机 

就 是 一 组 资源 ， 这 些 资源 用 于 对 数据 的 移动 、 存 储 和 处 理 并 进行 控制 。 在 proj3 中 的 Ucore 操 作 
系统 目前 只 提供 了 对 串口 /并 口 /CGA 这 三 种 MO 设 备 的 硬件 资源 的 访问 ， 每 个 MO 设备 的 操作 都 
有 自己 特有 的 指令 集 或 控制 信号 (对 照 一 下 serial_putc/lpt_putc/cga_putc 函 数 的 实现 ) ， 操 

作 系 统 隐藏 这 些 细节 ， 并 提供 了 统一 的 接口 〈 看 看 cprintf 函 数 的 实现 ) ， 因 此 程序 员 可 以 使 用 
简单 的 printf 函 数 来 写 这 些 设备 ， 达 到 显示 数据 的 效果 。 目 前 操作 系统 的 罗 辑 结构 图 架构 如 下 

图 所 示 : 
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在 PC 中 的 地 址 空间 布局 图 如 下 所 示 : 











实现 : 可 输出 字符 串 的 ucore 


32bit 设备 映射 空间 





OxFFFFFFFF (4G9 


实际 物理 内 存 大 小 


0x00100000 (1NB 
0x000F0000 (960KB) 


0x00000000 (768KB) 


— 0x000B8000 


0x00011000( HHEB) 


D0x00010000 
某 于 boat 1 oa der 大 小 


0x00007Q0 ( 栈 顶 ) 


基于 对 堆栈 的 使 用 情况 
0x00000000 
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ucore 操 作 系 统 开 始 控 制 计算 机 
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能 显示 函数 调用 关系 的 Ucore 


操作 系统 中 存在 很 多 函数 ， 通 过 函数 间 的 调用 来 完成 各 种 功能 。 在 操作 系统 运行 过 程 中 ， 维 
持 函 数 之 间 的 调用 关系 ， 以 及 函数 内 部 的 局 部 变量 是 栈 (stack) 的 基本 功能 。 我 们 需要 能 够 
理解 在 操作 系统 中 栈 的 实现 细节 和 功能 ， 这 样 能 够 更 好 地 理解 操作 系统 中 函数 如 何 相互 调 

用 ， 发 现 可 能 存在 的 问题 。 


实验 目标 


为 了 理解 操作 系统 中 的 子 数 调用 关系 、 传 递 参 数 和 函数 局 部 变量 ， 我 们 设计 了 proj3.1， 在 
Ucore 中 增加 了 一 个 monitor 子 功能 模块 ， 能 够 分 析出 ucore 在 执行 过 程 中 的 函数 调用 关系 和 函 
数 传递 的 参数 。 通 过 分 析 proj3.1 的 实现 ， 读 者 可 了 解 基本 栈 结 构 ， 栈 处 理 流 程 ，GCC 编 译 器 
的 参数 传递 约定 和 构建 函数 调用 关系 的 具体 实现 。 


proj3.1 概 述 


1.， 实现 描述 
proj3.1 建 立 在 proj3 的 基础 上 ， 通 过 增加 了 一 个 monitor 功 能 子 模 块 ， 实 现 了 一 个 能 显示 函 
数 调用 关系 的 ucore。 简 单 地 说 proj3.1 根 据 GCC 生 成 的 栈 构建 代码 、 函 数 参 数 压 栈 约 定 和 
实际 函数 调用 过 程 中 的 栈 结构 内 存 空间 ， 分 析 并 显示 函数 调用 关系 。 具 体 完成 此 工作 的 
是 print _stackframe 有 函数 。 


2. 项 目 组 成 
proj3.1 整 体 目录 结构 中 新 增加 的 主要 内 容 如 下 所 示 : 


| 
| - assert.h 
| - kdebug.c 
| - kdebug.h 
| - monitor.c 
| - monitor.h 
| - panic,c 
| `“-- stab.h 
|-- driver 
| `“-- kbdreg.h 
|-- init 
| -- init.c 
|-- libs 
| |-- readline.c 
| `“-- Stdio.c 

.-- trap 

`“-- trap.h 

- Makefile 
- tools 

|-- kernel.1d 


proj3.1 是 基于 proj3 进 一 步 扩展 完成 的 。 相 对 于 proj3， 一 共 增 加 了 10 个 文件 ， 主 要 集中 在 
debug 目 录 下 ， 这 一 个 比较 大 的 跨越 。 不 过 仔细 看 来 主要 增加 和 修改 的 文件 不 多 ， 有 具体 新 
增 内 容 如 下 所 示 : 


o kern/debug/monitor.[ch] : 监视 系统 运行 的 monitor 交 互 子 模块 

o kern/debug/debug.[ch] : 实现 内 存 地 址 到 部 数 名 的 映射 和 分 析 显 示 部 数 调用 关系 ; 
o kern/libs/readline.c : 实现 monitor 的 接收 字符 输入 的 功能 ; 

o kern/driver/kbdreg.h : 定义 了 键盘 的 键 值 

o kern/trap/trap.h : 为 了 向 后 兼容 中 断 的 处 理 ， 先 在 此 处 写 了 一 个 空 的 trapframe 结 


构 ; 
o tools/kernel.ld : 指导 ld 工具 软件 链接 各 个 .0 目标 文件 形成 ucore 的 kernel 的 链接 脚 
本 ; 


3， 编 译 运 行 编译 并 运行 proj3.1 的 命令 如 下 : 


cd proj3.1 
make 
make qemu 


当 “K>” 提 示 符 出 现 后 ， 可 以 敲 入 “help” 字 符 串 ， 可 以 看 到 当前 的 monitor 有 三 个 命令 可 以 输 
入 : help、kerninfo、backtrace。 我 们 禹 入 “backtrace" 字 符 串 ， 则 可 以 得 到 如 下 显示 界 
面 : 


(THU.CST) os is loading ... 


Welcome to the kernel debug monitor!! 
Type 'help' for a list of commands. 
K> help 

help - Display this list of commands. 


kerninfo - Display information about the kernel. 


backtrace - Print backtrace of stack frame. 
K> backtrace 


ebp:0x00007b08 elip:0x0010073a args:0x00010094 


0Xx00000000 


kern/debug/kdebug.c:216: print_stackframe+25 


ebp :0x00007b18 elip:0x00100a76 argSs:0Xx00000000 
kern/debug/monitor.c:94: mon_backtrace+11 
90x00007b88 eip:0x00100985 args:0x00108560 
kern/debug/monitor.c:55: runcmd+135 
09x00007bb8 eip:0x001009f8 args:0x00000000 
kern/debug/monitor.c:70: monitor+75 
90x00007be8 eip:0x00100059 args:0x00000000 
kern/init/init.c:22: kern_init+89 
90x00007bf8 elip:0x00007d5b args:0xc031fcfa 


ebp : 


ebp : 


ebp : 


ebp : 


0Xx00007b3c 


90Xx00000000 


0Xx00101efg0 


0Xx00000000 


0xco8ed88e 


0Xx00007b88 


90Xx00000000 


0x00007bb8 


90Xx0000065c 


90Xx00000000 


Ox64e4d08e 


Ox00100985 


09Xx0000000a 


Ox0010124c 


09Xx00000000 


0Xx00007c4f 


Oxfa7502a8 


通过 上 图 可 以 看 到 monitor 能 够 把 当前 的 函数 调用 关系 给 显示 出 来 ， 而 且 不 仅仅 给 出 函数 
调用 返回 处 的 eip 地 址 ， 还 显示 出 了 在 实际 源 代码 处 的 文件 名 和 行 号 。 如 果 Ucore 在 执行 过 
程 中 由 于 茶 种 异常 错误 激发 monitor 执 行 (以 后 有 这 样 的 实验 ) ， 我 们 就 可 以 很 容易 找到 
问题 出 现在 什么 地 方 了 。 下 面 我 们 将 从 栈 的 基本 概念 、 栈 结构 和 栈 处 理 过 程 等 方面 来 分 
析 上 图 中 背后 的 东西 。 


【背景 ] 栈 结构 和 处 理 过 程 


根据 数据 结构 课程 中 的 描述 ， 栈 是 限定 仅 在 表 尾 进行 插入 ( 即 入 栈 操 作 ) 或 删除 操作 ( 即 出 
栈 操作 ) 的 线性 表 [ 严 府 敏 著 的 《数据 结构 》 书 ]。 因 此 ， 栈 的 表 尾 端 成 为 称 为 栈 顶 (stack 
top) ， 表 头 端 称 为 栈 底 (stack bottom) 。 在 X86CPU 架 构 中 有 专门 的 指令 "push” 来 完成 入 栈 
操作 ，“pop" 指 令 来 完成 出 栈 操作 ， 栈 顶 指针 寄存 器 ESP 时 刻 指向 栈 的 栈 顶 。 比 较 有 趣 的 是 ， 
在 x86 中 ， 采 用 的 是 满 降序 栈 (full descending stack) 机 制 ， 即 栈 底 在 高 地 址 ， 栈 顶 在 低地 
址 ， 入 栈 的 方向 是 向 低地 址 进行 ， 出 栈 的 方向 是 向 高 地 址 进 eh me 
Me GCC 编 译 器 规定 的 函数 栈 帆 (stack frame) 是 一 块 存放 某 函 数 的 局 部 变量 、 参 
数 、 返 回 地 址 和 其 它 临 时 变量 的 内 存 空 间 ， 栈 帧 的 大 致 结构 和 操作 如 下 图 所 示 : 


栈 底 
较 早 的 由 
| 十 4n | 
地 址 增 大 | 
调用 者 的 由 
十 8 
+4 
帧 指针 一 一 > | 
%ebp 
-4 
当前 由 





楼 指针 一 一 > 
%esp 村 项 
操作 系统 中 使 用 栈 的 目的 与 一 般 应 用 程序 类 似 ， 不 外 乎 包括 : 支持 函数 调用 、 传 递 函 数 参 
数 、 局 部 变量 (也 称 自动 变量 ) 存储 、 咏 数 返 回 值 存 储 、 在 函数 内 部 保存 可 能 被 修改 的 寄存 
器 ee 。 除 此 之 外 ， 在 后 续 讲 到 的 中 断 处 理 、 内 核 态 /用 户 态 切换 、 进 程 切换 等 方面 ， 
需要 使 用 栈 来 保存 被 打 断 的 执行 所 用 到 的 寄存 器 等 硬件 信息 。 由 于 在 操作 系统 中 要 完成 许 


84 


多 非常 规 的 栈 空间 数据 处 理 ， 比 如 直接 修改 保存 在 栈 帧 中 的 返回 地 址 ， 使 得 函数 返回 到 不 同 
的 地 方 去 ， 所 以 我 们 需要 在 计算 机 体系 结构 和 机 器 代码 级 别 更 加 深入 地 理解 操作 系统 是 如 何 
具体 进行 栈 处 理 的 。 下 面 ， 我 们 将 结合 调试 运行 proj3.1 来 分 析 内 核 中 的 函数 调用 关系 。 


【实现 】 分 析 内 核 函 数 调 用 关系 


首先 ，UCcore 需 要 建立 一 个 空 的 栈 空间 ， 然 后 才能 进行 函数 调用 、 参 数 传 递 等 处 理工 作 。 
Ucore 是 在 哪里 建立 的 栈 呢 ? 其 实 ucore 是 借用 了 ee 栈 空 间 ， 而 bootloader 在 
bootasm.S 中 的 如 下 语句 建立 的 栈 空间 : 


# Set up the stack pointer and call into C. 
movl $0x0, %ebp 
movl $start, %esp 


可 以 看 到 bootloader 把 栈 底 设置 到 了 S$start 地 址 处 ， 正 好 是 bootloader 的 起 始 地 址 0x7c00。 不 
过 由 于 入 栈 操作 中 的 esp 是 向 下 增长 的 ， 所 以 不 会 覆盖 bootloader 的 内 容 。 那 ebp 有 何 作用 
呢 ? 我 们 先 暂时 放 在 一 边 ， 继 续 跟 踪 代 码 的 执行 。 


接 下 来 ，bootloader 会 调用 bootmain ( ) 却 数 ， 而 bootmain () 郊 数 会 在 加 载 完 ucore 后 ， 调 
用 Ucore 的 起 始 函 数 kern_init ( ) 。 在 ucore 的 继续 执行 过 程 中 ， 还 将 有 如 下 的 泡 数 调用 过 程 


kern_init-->monitor-->runcmd-->mon_backtrace-->print_stackframe。 


这 通过 看 源 代码 或 执行 monitor 中 的 backtrace 命 令 都 可 以 了 解 到 。 
我 们 可 以 结合 前 面 的 实验 来 说 明 Ucore 是 如 何 分 析出 这 样 的 调用 关系 的 。 


操作 系统 中 的 中 断 (也 称 异常 ) 技术 是 操作 系统 的 重要 功能 ， 是 计算 机 硬件 和 软件 相配 合 产 
生 的 重要 技术 。 简 单 地 说 ， 中 断 处 理 是 指 由 于 有 紧急 事件 产生 ， 需 要 打 断 当前 CPU 的 正常 执 
行 ， 转 而 处 理 紧 急事 件 ， 处 理 完毕 后 ， 恢 复 到 被 打 断 的 地 方 继续 执行 。 通 过 中 断 机 制 ， 计 算 
机 系统 可 以 高 效 地 处 理 外 设 请 求 ， 可 以 快速 响应 应 用 软件 的 异常 或 请 求 ， 也 可 以 有 规律 地 打 
断 应 用 程序 的 执行 ， 把 执行 CPU 控制 权 还 到 操作 系统 手中 ， 从 而 使 得 系统 的 资源 
可 控 。 但 单纯 的 操作 系统 原理 书籍 很 难 深 入 分 析 中 断 的 处 理 细 节 。 我 们 希望 通过 后 续 的 
proj4/4.1.1 等 的 实验 ， 让 读者 了 解 到 ucore 操 作 系 统 如 何 完 成 上 述 事情 。 


首先 我 们 需要 了 解 GCC 生 成 的 C 函 数 调 用 过 程 


1. 调用 元 数 为 了 传递 和 参数 给 被 调用 函数 ， Se se ore ， 然 后 
会 执行 一 个 call 指 令 ， 在 call 指 令 内 部 执行 过 程 中 ， 还 把 返回 地 址 ( 即 CALL 指 令 下 一 条 指 
令 的 地 址 ) 也 入 栈 了 。 

2.，GCC 编 译 器 会 在 每 个 函数 的 起 始 部 分 插入 类 似 如 下 指令 (可 参看 obj/kernel.asm 文 件 内 


从 


容 ): 


push  %ebp 
mov %esp,%ebp 
sub $NUM, %esp 


在 ucore 执 行 到 一 个 函数 的 函数 体 时 ， 已 经 有 以 下 数据 顺序 入 栈 : 调用 有 函数 的 参数 ， 函 数 返回 
地 址 。 由 此 得 到 类 似 如 下 的 栈 结 构 (参数 入 栈 顺序 跟 调用 方式 有 关 ， 这 里 以 C 语 言 默 认 的 
CDECL 为 例 ) 


高 地 址 方向 

BB 
|------------------------ | <----------- 
| | 

| argument 3 | Caller's stack frame 
| argument 2 | 

| argument 1 | 

| return address |<---------- esp 


低地 址 方向 


“push %ebp” 和 “mov %esp,%ebp” 这 两 条 指令 实在 隐 含 了 对 函数 调用 关系 链 的 建立 : 首先 将 
ebp 入 栈 ， 然 后 将 栈 顶 指针 esp 赋 值 给 ebp， 此 时 的 栈 结构 如 下 所 示 : 


高 地 址 方向 |------------------------ | |------------------------ <----------- | 11argument 3 | Caller's 
stack frame | argument 2 | | argument 1 | | return address |<----------- |----previous ebp-----|<-- 
---- ebp, esp |----- 一 ----------------- | 且 sss | 低地 址 方向 


“mov %esp,%ebp” 这 条 指令 表面 上 看 是 用 esp 把 ebp 的 昌 值 覆盖 了 ， 但 在 这 条 语句 之 前 ，ebp 
旧 值 已 经 被 压 栈 (位 于 栈 顶 ) ， 而 新 的 ebp 又 恰恰 指向 栈 顶 。 第 三 条 语句 “sub $NUM,%esp” 把 
esp 减 少 了 NUM 个 值 ， 这 其 实 是 建立 了 兄 数 的 局 部 变量 、 寄 存 器 保存 的 空间 。 此 时 的 栈 结构 如 
下 所 示 : 


高 地 址 方向 


|------------------------ <----------- 

| | 

| argument 3 | Caller's stack frame 
| argument 2 | 

| argument 1 | 

| return address |<----------- 
|----previous ebp----- |<------ ebp, esp 


低地 址 方向 


到 此 时 为 止 ，ebp 寄 存 器 处 于 函数 调用 关系 链 中 一 个 非常 重要 的 地 位 。ebp 寄 存 器 中 存储 着 栈 
中 的 一 个 地 址 ( 栈 帧 分 界 处 ) ， 此 地 址 是 “ 老 "ebp 入 栈 后 的 栈 顶 。 那 么 以 该 该 地 址 为 基准 ， 向 
高 地 址 方向 ( 即 栈 底 方向 ) 能 获取 返回 地 址 、 参 数值 ， 向 低地 址 方向 ( 栈 顶 方向 ) 能 获取 函 
数 局 部 变量 值 ， 而 该 地 址 处 又 存放 着 上 一 层 函 数 调 用 时 的 ebp 值 。 由 于 ebp 中 的 地 址 处 总 是 “上 
一 层 函 数 调 用 时 的 ebp 值 ”， 这 样 ， 就 能 通过 把 ebp 的 内 容 作为 寻找 上 一 个 调用 有 函数 的 栈 帧 的 指 
针 ， 如 此 形成 递归 ， 直 至 到 达 栈 底 。 这 就 可 找到 整个 的 函数 调用 栈 。 这 也 是 kdebug.c 中 
print_stackframe 兄 数 的 实现 内 容 。 


可 管理 中 断 并 处 理 中 断 方式 JO 的 ucore 


实验 目标 


前 面 的 project 都 没有 引入 中 断 机 制 ， 所 以 bootloader 和 ucore 都 是 正常 地 顺序 执行 ， 不 会 受到 
外 界 (比如 外 设 ) 的 “干扰 ”。 虽 然 实现 简单 ， 但 无 法 解决 上 述 问题 。 我 们 需要 扩展 ucore 的 功 
能 ， 让 ucore 能 够 支持 中 断 ， 这 需要 读者 了 解 基本 的 80386 硬 件 中 断 机 制 ， 对 保护 模式 有 更 深 
入 的 了 解 ; 需要 清楚 在 中 断 的 处 理 过 程 中 ， 硬 件 主动 完成 了 什么 事情 ， 软 件 在 硬件 完成 的 基 
础 上 又 要 完成 哪些 事情 。 通 过 学 习 和 实践 ， 读 者 可 以 了 解 清楚 上 述 问题 ， 并 进一步 知道 通过 
操作 系统 的 中 断 处 理 例 程 (Interrupt Process Routine, IPR) 完成 设备 请 求 处 理 的 方法 等 。 


proj4 概 述 


实现 描述 


proj4 建 立 在 proj3.1 的 基础 上 ， 实 现 了 一 个 通过 中 断 机 制 完 成 设备 (键盘 、 串 口 和 时 钟 ) 中 断 
请 求 处 理 的 Ucore。 简 单 地 说 proj4 扩 展 与 中 断 相关 的 工作 有 两 个 ， 一 个 是 初始 化 中 断 ， 涉 及 初 
始 化 中 断 控 制 器 8259A (打通 外 设 与 CPU 的 通路 ) 和 中 断 门 描述 符 表 (建立 外 设 中 断 与 中 断 
服务 例 程 的 联系 ) 和 各 种 外 设 。 以 proj4 的 Ucore 为 例 ， 操 作 系 统 内 核 启 动 以 后 ，kern_init 部 数 
(kern/init/init.c) 通过 调用 pic_init 鸣 数 完成 对 中 断 控制 器 的 初始 化 工作 ， 调 用 idt_init 加 数 完成 
了 对 整个 中 断 门 描述 符 表 的 创建 ， 调 用 cons_init 和 clock_init 函 数 完成 对 串口 、 键 瘟 和 时 钟 外 
设 的 中 断 初始 化 工作 。 

Ucore 的 另 一 个 重要 工作 是 中 断 服务 ， 即 收 到 中 断后 ， 对 中 断 进行 处 理 的 中 断 服务 例 程 ( 比如 
收 到 100 个 时 钟 中 断后 ， 显 示 一 个 字符 串 “100 ticks”) 等 。 这 主要 集中 在 vectors.S (包括 256 
个 中 断 服务 例 程 的 入 口 地 址 和 第 一 步 初步 处 理 实现 ) 、trapentry.S ( 紧 接着 第 一 步 初步 处 理 
后 ， 进 一 步 完成 第 二 步 初步 处 理 的 实现 以 及 中 断 处 理 完 毕 后 的 返回 准备 工作 ) 和 trap.c 中 ( 紧 
接着 第 二 步 初 步 处 理 后 ， 继 续 完成 具体 的 各 种 中 断 处 理 操 作 ) 。 


项 目 组 成 


proj4 整 体 目录 结构 如 下 所 示 : 


- driver 

|-- clock.c 
|-- clock.h 
|-- console.c 
|-- console.h 
|-- picirqg.c 
- picirqg.h 


|-- memlayout.h 
-- mmu.h 
- trap 
|-- trap.c 
|-- trapentry.S 
|-- trap.h 
`“-- vectors.s 
- tools 
~-- vector.c 


proj4 是 基于 proj3.1 (会 在 内 置 监控 自身 运行 状态 的 ucore 一 节 中 进一步 说 明 ) 进一步 扩展 完成 
的 。 相 对 于 proj3.1， 增 加 了 大 约 10 个 文件 ， 相 关 增 加 和 ne 
目录 下 ， 使 得 ucore 具 有 外 设 中 断 处 理 功能 ， 这 一 个 比较 大 的 跨越 。 主 要 增加 和 修改 的 文件 如 
下 所 示 : 


e tools/vector.c : 生成 Vectors.S， 此 文件 包含 了 中 断 向 量 处 理 的 统一 实现 。 

e kern/driver/intr.[ch] : 实现 了 通过 设置 CPU 的 eflags 来 屏蔽 和 使 能 中 断 的 函数 ; 

。 kern/driver/picirq.[ch] : 实现 了 对 中 断 控制 器 8259A 的 初始 化 和 使 能 操作 ; 

。 kern/driver/clock.[ch] : 实现 了 对 时 钟 控制 器 8253 的 初始 化 操作 ; 

。 kern/driver/console.[ch] : 实现 了 对 串口 和 键盘 的 中 断 方式 的 处 理 操作 ; 

。 kern/trap/vectors.S : 包括 256 个 中 断 服 务 例 程 的 入 口 地 址 和 第 一 步 初步 处 理 实现 ; 

。 kern/trap/trapentry.S : 紧 接 着 第 一 步 初 步 处 理 后 ， 进 一 步 完成 第 二 步 初 步 处 理 ; 并 且 有 
恢复 中 断 上 下 文 的 处 理 ， 即 中 断 处 理 完毕 后 的 返回 准备 工作 ; 

。 kern/trap/trap.[ch] : 紧 接 着 第 二 步 初 步 处 理 后 ， 继 续 完 成 具体 的 各 种 中 断 处 理 操作 ; 


编译 运行 
编译 运行 


编译 并 运行 proj4 的 命令 如 下 : 


make 
make qemu 


则 可 以 得 到 如 下 显示 界面 


bi 


通过 上 图 可 以 看 到 时 钟 中 断 已 经 能 够 正常 相应 ， 每 隔 100 个 时 钟 中 断 会 显示 一 次 “100 ticks” 的 
信息 。 一 个 简单 的 显示 信息 的 背后 列 藏 着 中 断 处 理 的 复杂 实现 。 下 面 我 们 将 从 中 断 基 本 概 
念 、 中 断 控制 器 、 保 护 模式 的 中 断 处 理 机 制 等 方面 来 分 析 上 图 中 背后 的 东西 。 


A 
心 


【背景 ] 理解 CPU 对 外 设 中 断 的 硬件 支持 


操作 系统 需要 对 计算 机 系统 中 的 各 种 外 设 进行 管理 ， 这 就 需要 CPU 和 外 设 能 够 相互 通信 才 
行 。 0 慢 于 CPU 的 速度 。 如 果 让 操作 系统 通过 CPU" 主 动 关心 "外 设 的 事件 ， 即 
通常 的 轮 询 (polling) 机 制 ， 则 太 浪 费 CPU 资 源 了 。 所 以 需要 操作 系统 和 CPU 能 够 一 起 提供 
ep ， 让 外 设 在 需要 操作 系统 处 理 外 设 相关 事件 的 时 候 ， 能 够 “主动 通知 "操作 系统 ， 即 打 
断 操 作 系 统 和 应 用 的 正常 执行 ， 让 操作 系统 完成 外 设 的 相关 处 理 ， 然 后 在 恢复 操作 系统 和 应 
用 的 正常 执行 。 在 操作 系统 中 ， 这 种 机 制 称 为 中 断 机 制 。 中 断 机 制 给 操作 系统 提供 了 处 理 意 
外 情况 的 能 力 ， 同 时 它 也 是 实现 进程 /线程 抢占 式 调度 的 一 个 重要 基石 。 但 中 断 引 入 的 不 确定 
性 和 异步 性 导致 了 设计 和 实现 操作 系统 更 加 困难 。 


本 章 只 描述 保护 模式 下 的 中 断 处 理 过 程 。 当 CPU 收 到 外 设 中 断 (可 通过 可 编程 中 断 控 制 器 芯 
片 8259A 发 给 CPU 中 断 信 息 ) 、CPU 自 身 产生 的 故障 (Fault) 或 CPU 自身 “有 意 " 产 生 的 陷阱 
(trap) 时 ， 它 会 暂停 执行 当前 的 程序 或 任务 ， 通 过 一 定 的 机 制 跳 转 到 负责 处 理 这 个 事件 的 相 
关 处 理 例 程 中 ， 在 完成 对 这 个 事件 的 处 理 后 再 跳 回 到 刚才 被 打 断 的 程序 或 任务 中 。 中 断 向 量 
和 中 断 服务 例 程 的 对 应 关系 主要 是 由 IDT (中 断 门 描述 符 表 ) 来 描述 。 操 作 系 统 在 IDT 中 设置 
好 各 种 中 断 向 量 对 应 的 中 断 描述 符 ， 而 中 断 描述 符 指 出 了 中 断 服务 例 程 的 起 始 地 址 ， 留 待 
CPU 在 产生 中 断后 查询 对 应 中 断 服务 例 程 的 起 始 地 址 。 而 |DT 本 身 的 起 始 地 址 保存 在 IDTR 寄 
存 器 中 。 


80386 共 支持 256 种 中 断 ， 其 中 故障 (Fault) 和 陷阱 (Trap) 由 CPU 自身 产生 ， 不 使 用 中 断 控制 
器 ， 也 不 能 被 屏蔽 。 外 设 中 断 又 分 为 可 屏蔽 中 断 (INTR) 和 非 屏 蔽 中 断 (NMI) ，JMO 设 备 产 
生 的 中 断 请 求 (IRQ) 引起 可 屏蔽 中 断 ， 而 紧急 的 外 设 事件 〈 如 掉 电 故障 ) 引起 的 中 断 事 件 引 
起 非 屏 蔽 中 断 。 


非 屏 蔽 中 断 和 弄 常 的 编号 是 固定 的 ， 而 屏蔽 中 断 的 编号 可 以 通过 对 中 断 控制 器 的 编程 来 调 
整 。256 个 中 断 的 分 配 如 下 : 

e 0~31 号 的 中 断 对 应 于 故障 、 陷 阱 和 非 屏蔽 外 设 中 断 。 

。 32~47 号 的 中 断 分 配给 可 屏蔽 外 设 中 断 。 

e 48~255 号 的 中 断 可 以 用 软件 来 设置 。 比 如 ucore 可 用 其 中 的 一 个 中 断 号 来 实现 系统 调用 。 


外 设 可 屏蔽 中 断 


80386 通 过 两 片 中 断 控 制 器 8259A 来 响应 15 个 外 中 断 源 ， 每 个 8259A 可 管理 8 个 中 断 源 。 第 一 
级 ( 称 主 片 ) 的 第 二 个 中 断 请 求 输入 端 ， 0 ( 称 从 片 ) 的 中 断 输 出 端 INT 相 连 
如 下 图 所 示 。IRQ 号 和 中 断 号 之 间 的 映射 关系 可 以 通过 中 断 控 制 器 来 调整 。 
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级 联 的 8259A 架 构 


在 中 断 产生 过 程 中 ， 中 断 控制 器 8259A 监 视 外 设 产生 的 中 断 请 求 (IRQ) 信号 ， 如 果 外 设 产生 
了 一 个 中 断 请 求 信 号 ， 则 8259A 执 行 如 下 操作 : 


1， 把 接受 到 的 IRQ 信 号 转换 成 一 个 对 应 的 中 断 编 号 ; 

2， 把 这 个 中 断 编号 值 存 放 在 中 断 控 制 器 的 一 个 IO 地 址 单元 中 ，CPU 通 过 数据 /地 址 总 线 可 访 
问 到 此 JJ/O 地 址 单元 ; 

.给 CPU 的 INTR 引 脚 触发 信号 ， 即 发 出 一 个 中 断 ; 

4. 等 待 直到 CPU 通过 INTA 引 脚 确认 这 个 中 断 信号 ， 清 除 INTR 引 脚 上 的 触发 信号 。 


屏蔽 外 部 IO 请 求 有 两 种 方法 。 0 度 清 零 CPU 的 EFLAG 的 中 断 标志 位 (|F) 
另 一 种 是 从 中 断 控 制 器 的 角度 过 把 中 断 控 制 器 中 的 中 断 屏 蔽 寄存 器 (IMR) 相应 位 置 


1， 则 表示 禁用 某 条 中 断 线 。 


陷阱 、 故 障 和 非 屏蔽 中 断 


陷阱 和 故障 是 CPU 内 部 执行 指令 的 过 程 中 产生 的 中 断 事件 。 非 屏蔽 中 断 就 是 计算 机 内 部 硬件 
出 错时 引起 的 紧急 故障 情况 。80386 处 理 器 发 布 了 大 约 20 种 陷阱 、 故 障 或 非 屏蔽 中 断 。 在 某 些 
故障 产生 时 ，CPU 会 产生 一 个 硬件 错误 码 并 压 入 内 核 栈 中 。 


在 下 表 中 给 出 了 在 实验 中 可 能 碰 到 的 80386 中 陷阱 的 中 断 号 、 名 称 、 类 别 及 简单 描述 。 更 多 的 
信息 可 以 在 Intel 的 技术 文 挡 中 找到 。 


表 ucore 中 异常 的 简单 描述 


中 断 号 名称 类 别 ”简单 描述 

8 双重 故障 故障 在 处 理 故障 中 又 产生 了 故障 

11 段 不 存在 故障 访问 一 个 不 存在 的 段 

12 栈 段 异常 故障 超过 栈 段 界限 ， 或 由 ss 标识 的 段 不 存在 
13 通用 保护 故障 违反 了 保护 模式 下 的 某 种 保护 规则 

14 页 异常 故障 页 不 在 内 存 ， 或 违反 了 一 种 分 页 保护 机 制 


中 断 门 描述 符 表 (Interrupt Descriptor Table ) 


中 断 门 描述 符 表 把 每 个 中 断 或 异常 编号 和 一 个 指向 中 断 服务 例 程 的 描述 符 联系 起 来 。 同 GDT 
一 样 ，IDT 是 一 个 8 字 节 的 描述 符 数组 ， 但 |DT 的 第 一 项 可 以 包含 一 个 描述 符 。CPU 把 中 断 ( 异 
常 ) 号 乘 以 8 做 为 IDT 的 索引 。1DT 可 以 位 于 内 存 的 任意 位 置 ，CPU 通 过 IDT 寄 存 器 (IDTR) 的 
内 容 来 寻 址 IDT 的 起 始 地 址 。 指 令 LIDT 和 SIDT 用 来 操作 IDTR。 两 条 指令 都 有 一 个 显示 的 操作 

数 : 一 个 6 字 节 表示 的 内 存 地 址 。 指 令 的 含义 如 下 : 


。 LIDT (Load IDT Register) 指令 : 使 用 一 个 包含 线性 地 址 基 址 和 界限 的 内 存 操作 数 来 加 
载 IDT。 操 作 系 统 创建 IDT 时 需要 执行 它 来 设 定 IDT 的 起 始 地 址 。 这 条 指令 只 能 在 特权 级 0 
执行 。 

。 SIDT (Store IDT Register) 指令 : 拷贝 IDTR 的 基 址 和 界限 部 分 到 一 个 内 存 地 址 。 这 条 指 
令 可 以 在 任意 特权 级 执行 。 


IDT 和 1IDTR 寄 存 器 的 结构 和 关系 如 下 图 所 示 : 
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在 保护 模式 下 ， 最 多 会 存在 256 个 Interrupt/Exception Vectors。 范 围 [0，31] 内 的 32 个 向 量 被 
故障 中 断 和 NMI (不 可 屏蔽 ) 中 断 使 用 ， 但 当前 并 非 所 有 这 32 个 向 量 都 已 经 被 使 用 ， 有 几 个 
当前 没有 被 使 用 。 范 围 [32，255] 内 的 向 量 被 保留 给 用 户 定义 的 中 断 ， 可 将 它们 用 作 外 部 1/O 设 
备 中 断 (8259A IRQ) ， 或 者 系统 调用 (System Call 、Software Interrupts) 等 。 


门 描 述 符 (Gate Descriptors ) 


在 保护 模式 下 ， 中 断 门 描述 符 表 (IDT) 中 的 每 个 表 项 由 8 个 字 节 组 成 ， 其 中 的 每 个 表 项 叫做 
一 个 门 描述 符 (Gate Descriptor) ，“ 门 ”的 含义 是 指 当 中 断 发 生 时 必须 先 访问 这 些 “ 门 " 能 
够 “开门”( 即将 要 进行 的 处 理 需 通 过 特权 检查 ， 符 合 设 定 的 权限 等 约束 ) 后 ， 然 后 才能 进入 相 
应 的 处 理 程序 。 而 门 描述 符 则 描述 了 “ 门 "的 属性 (如 特权 级 、 段 内 偏 移 量 等 )。 在 IDT 中 ， 可 
以 包含 如 下 3 种 类 型 的 系统 段 描 述 符 : 


。 中 断 门 描述 符 〈Interrupt-gate descriptor) : 用 于 中 断 处 理 ， 其 类 型 码 为 110， 中 断 门 包 
含 了 一 个 外 设 中 断 或 故障 中 断 的 处 理 程序 所 在 段 的 选择 子 和 段 内 偏 移 量 。 当 控制 权 通 过 
中 断 门 进入 中 断 处 理 程序 时 ， 处 理 器 清 IF 标 志 ， 即 关中 断 ， 以 避免 瑶 套 中 断 的 发 生 。 中 断 
门 中 的 DPL (Descriptor Privilege Level) 为 0， 因 此 用 户 态 的 进程 不 能 访问 中 断 门 。 所 有 
的 中 断 处 理 程 序 都 由 中 断 门 激活 ， 并 全 部 限制 在 内 核 态 。 

。 陷阱 门 描 述 符 (Trap-gate descriptor) : 用 于 系统 调用 ， 其 类 型 码 为 111， 与 中 断 门类 
似 ， 其 唯一 的 区 别 是 ， 控 制 权 通过 陷阱 门 进入 处 理 程序 时 维持 IF 标志 位 不 变 ， 也 就 是 说 ， 


不 关中 断 。 
。 任务 门 描述 符 〈Task-gate descriptor) 和 调用 门 描 述 符 (Call-gate descriptor) : 这 两 种 
主要 是 Intel 设 置 的 “任务 "切换 的 手段 ， 在 本 书 中 暂时 没有 使 用 。 
下 图 图 显示 了 80386 的 中 断 门 描述 符 、 陷 阱 门 描述 符 的 格式 : 
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中 断 处理 中 硬件 负责 完成 的 工作 


中 断 服务 例 程 包括 具体 负责 处 理 中 断 ( 弄 常 ) 的 代码 是 操作 系统 的 重要 组 成 部 分 。 需 要 注意 
区 别 的 是 ， 有 两 个 过 程 由 硬件 完成 : 
。 硬件 中 断 处 理 过程 1 (起 始 ) : 从 CPU 收 到 中 断 事件 后 ， 打 断 当 前 程序 或 任务 的 执行 ， 根 
据 茶 种 机 制 跳 转 到 中 断 服务 例 程 去 执行 的 过 程 。 其 具体 流程 如 下 : 





1， CPU 在 执行 完 当 前 程序 的 每 一 条 指令 后 ， 都 会 去 确认 在 执行 刚才 的 指令 过 程 中 中 断 
控制 器 (如 8259A) 是 否 发 送 中 断 请 求 过 来 ， 如 果 有 那么 CPU 就 会 在 相应 的 时 钟 脉 


冲 到 来 时 从 总 线 上 读 取 中 断 请 求 对 应 的 中 断 向 量 ; 
CPU 根据 得 到 的 中 断 向 量 〈 以 此 为 索引 ) 到 IDT 中 找到 该 向 量 对 应 的 中 断 描述 符 ， 中 


2. 
断 描述 符 里 保存 着 中 断 服 务 例 程 的 段 选 择 子 ; 
3. CPU 使 用 IDT 查 到 的 中 断 服务 例 程 的 段 选择 子 从 GDT 中 取得 相应 的 段 描述 符 ， 段 描述 


符 里 保存 了 中 断 服务 例 程 的 段 基 址 和 属性 信息 ， 段 描述 符 的 基 址 + 中 断 描 述 符 中 的 仿 
移 地 址 形成 了 中 断 服务 例 程 的 起 始 地 址 ; 


4. CPU 会 根据 CPL 和 中 断 服 务 例 程 的 段 描述 符 的 DPL 信 息 确 认 是 否 发 生 了 特权 级 的 转 
换 。 比 如 当前 应 用 程序 正 运 行 在 用 户 态 ， 而 中 断 服 务 例 程 是 运行 在 内 核 态 的 ， 则 意 
味 着 发 生 了 特权 级 的 转换 ， 这 时 CPU 会 从 当前 应 用 程序 的 TSS 信 息 (该 信息 在 内 存 
中 的 起 始 地 址 存在 TR 寄存 器 中 ) 里 取得 该 程序 的 内 核 栈 地 址 ， 即 包括 内 核 态 的 SS 和 
esp 的 值 ， 并 立即 将 系统 当前 使 用 的 栈 切 换 成 新 的 内 核 栈 。 这 个 栈 就 是 即将 运行 的 中 
断 服务 程序 要 使 用 的 栈 。 紧 接着 就 将 当前 程序 使 用 的 用 户 态 的 SS 和 esp 压 到 新 的 内 核 
栈 中 保存 起 来 ; 如 果 当 前 程序 运行 在 内 核 态 ， 则 不 会 发 生 特 权 转 移 

5， CPU 需 要 开始 保存 当前 被 打 断 的 用 户 态 程序 的 现场 ( 即 一 些 寄 存 器 的 值 ) ， 以 便于 
将 来 恢复 被 打 断 的 程序 继续 执行 。 这 需要 利用 内 核 栈 来 保存 相关 现场 信息 ， 即 依次 
压 入 当前 被 打 断 程序 使 用 的 eflags，cs，eip，errorCode (如 果 是 有 错误 码 的 异常 ) 
言 息 ; 

6，CPU 把 中 断 服务 例 程 的 地 址 加 载 到 cs 和 eip 寄 存 器 中 ， 开 始 执行 中 断 服务 例 程 。 这 意 
味 着 先前 的 程序 被 暂停 执行 ， 中 断 服务 程序 正式 开始 工作 。 

e 硬件 中 断 处 理 过 程 2 (结束 ) : 每 个 中 断 服务 例 程 在 有 中 断 处 理工 作 完 成 后 需要 通过 
iret (或 iretd ) 指令 恢复 被 打 断 的 程序 的 执行 。CPU 执 行 IRET 指 令 的 具体 过 程 如 下 : 


1.， 程序 执行 这 条 iret 指 令 时 ， 首 先 会 从 内 核 栈 里 弹出 先前 保存 的 被 打 断 的 程序 的 现场 信 
息 ， 即 eflags，cs，eip 重 新 开始 执行 ; 

2.， 如果 存在 特权 级 转换 (从 内 核 态 转换 到 用 户 态 ) ， 则 还 需要 从 内 核 栈 中 弹出 用 户 态 
栈 的 SS 和 esp， 这 样 也 意味 着 栈 也 被 切换 回 原先 使 用 的 用 户 态 的 栈 了 ; 

3， 如 果 此 次 处 理 的 是 带 有 错误 码 (errorCode) 的 异常 ，CPU 在 恢复 先前 程序 的 现场 
时 ， 并 不 会 弹出 errorCode。 这 一 步 需要 通过 软件 完成 ， 即 要 求 相关 的 中 断 服务 例 程 
在 调用 iret 返 回 之 前 添加 出 栈 代码 主动 弹出 errorCode。 


下 图 显示 了 从 中 断 向 量 到 GDT 中 相应 中 断 服 务 程 序 起 始 位 置 的 定位 方式 : 
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中 断 处 理 的 特权 级 转换 


中 断 处 理 得 特权 级 转换 是 通过 门 描 述 答 (gate descriptor) 和 相关 指令 来 完成 的 。 一 个 门 描述 
符 就 是 一 个 系统 类 型 的 段 描述 符 ， 一 共有 4 个 子 类 型 : 调用 门 描述 符 va -gate 

descriptor) ， 中 断 门 描述 符 (interrupt-gate descriptor) ， 陷 阱 门 描述 符 (trap-gate 
descriptor) 和 任务 门 描述 符 (task-gate descriptor) 。 与 中 断 处 理 相关 的 是 中 断 门 描述 符 和 
陷阱 门 描述 符 。 这 些 门 描述 符 被 存储 在 中 断 门 描述 符 表 (Interrupt Descriptor Table， 简称 
IDT) 当中 。CPU 把 中 断 向 量 作为 IDT 表 项 的 索引 ， 用 来 指出 当中 断 发 生 时 使 用 哪 一 个 门 描述 
符 来 处 理 中 断 。 中 断 门 描述 符 和 陷阱 门 描述 符 几乎 是 一 样 的 。 中 断 发 生 时 实施 特权 检查 的 过 
程 如 下 图 所 示 : 
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图 中 断 发 生 时 实施 特权 检查 的 过 程 


门 中 的 DPL 和 段 选 择 符 一 起 控制 着 访问 ， 同 时 ， 段 选择 符 结 合 偏 移 量 (Offset) 指出 了 中 断 处 
理 例 程 的 入 口 点 。 内 核 一 般 在 门 描述 符 中 卉 入 内 核 代 码 段 的 段 选择 子 。 产 生 中 断后 ，CPU 一 
定 不 会 将 运行 控制 从 高 特权 级 转向 低 特权 级 ， 特 权 级 必须 要 么 保持 不 变 ( 当 操 作 系 统 内 核 自 
己 被 中 断 的 时 候 ) ， 或 被 提升 ( 当 用 户 态 程序 被 中 断 的 时 候 ) 。 无 论 哪 一 种 情况 ， 作 为 结果 
的 CPL 必 须 等 于 目的 代码 段 的 DPL。 如 果 CPL 发 生 了 改变 (比如 从 用 户 态 到 内 核 态 ) ， 一 个 栈 
切换 操作 (通过 TSS 完 成 ) 就 会 发 生 。 如 果 中 断 是 被 用 户 态 程序 中 的 指令 所 触发 的 (比如 软 
件 执行 INTn 生 产 的 中 断 ) ， 还 会 增加 一 个 额外 的 检查 : 门 的 DPL 必 须 具有 与 CPL 相 同 或 更 低 
的 特权 。 这 就 防止 了 用 户 代码 随意 触发 中 断 。 如 果 这 些 检查 失败 ， 就 会 产生 一 个 一 般 保 护 异 
常 (general-protection exception ) 。 


【人 实现】 初始 化 中 断 控 制 器 


80386 把 中 断 号 0~-31 分 配给 陷阱 、 故 障 和 非 屏 蔽 中 断 ， 而 把 32~-47 之 间 的 中 断 号 分 配给 可 屏 
荐 中断。 可 屏蔽 中 断 的 中 断 号 是 通过 对 中 断 控制 器 的 编程 来 设置 的 。 下 面 描述 了 对 8259A 中 断 
控制 器 初始 化 过 程 。 


8259A 通 过 两 个 IO 地 址 来 进行 中 断 相 关 的 数据 传送 ， 对 于 单个 的 8259A 或 者 是 两 级 级 联 中 的 
主 8259A 而 言 ， 这 两 个 JJO 地 址 是 0Xx20 和 0Xx21。 对 于 两 级 级 联 的 从 8259A 而 言 ， 这 两 个 IO 地 址 
是 0xA0 和 0xA1。8259A 有 两 种 编程 方式 ， 一 是 初始 化 方式 ， 二 是 工作 方式 。 在 操作 系统 启动 
时 ， 需 要 对 8959A 做 一 些 初始 化 工作 ， 即 实现 8259A 的 初始 化 方式 编程 。8259A 中 的 四 个 中 断 
命令 字 (ICW) 寄存 器 用 来 完成 初始 化 编程 ， 其 含义 如 下 : 


e ICW1 : 初始 化 命令 字 。 

e ICW2 : 中 断 向 量 寄存 器 ， 初 始 化 时 写 入 高 五 位 作为 中 断 向 量 的 高 五 位 ， 然 后 在 中 断 响 应 
时 由 8259 根 据 中 断 源 (哪个 管 脚 ) 自动 填 入 形成 完整 的 8 位 中 断 向 量 (或 叫 中 断 类 型 
3 

。 ICW3 : 8259 的 级 联 命令 字 ， 用 来 区 分 主 片 和 从 片 。 

。 ICW4 : 指定 中 断 谋 套 方式 、 数 据 缓 冲 选择 、 中 断 结束 方式 和 CPU 类 型 。 


8259A 初 始 化 的 过 程 就 是 写 入 相关 的 命令 字 ，8259A 内 部 储存 这 些 命令 字 ， 以 控制 8259A 工 
作 。 有 关 的 硬件 可 看 附录 补充 资料 。 这 里 只 把 Ucore 对 8259A 的 初始 化 过 程 (在 picirq.c 中 的 
pic_init 函 数 实现 ) 描述 一 下 : 


// 此 时 系统 尚未 初始 化 完毕 ， 故 屏蔽 主 从 8259A 的 所 有 中 断 


outb(IO_PIC1 + 1, OxFF); 
outb(IO_PIC2 + 1, OxFF); 


// 设置 主 8259A 的 ICNW1， 给 ICW1 写 入 9x11，OXx11 表 示 (1) 外 部 中 断 请 求 信 号 为 上 升 沿 触发 有 效 ， (2) 系统 中 有 
多 片 8295A 级 联 ， (3) 还 表示 要 向 ICW4 送 数据 


// ICW1 设 置 格式 为 : 0001gghi 

// g: 0 = edge triggering, 1 = level triggering 
// jx cascaded PICs, 1 = master only 

// i: 0 = no ICWw4, 1 = ICW4 required 


outb(I0_PIC1, QOx11); 


// 设置 主 8259A 的 ICW2: 给 ICW2 写 入 0x20， 设 置 中 断 向 量 偏 移 值 为 OxX20， 即 把 主 8259A 的 TRQ0-7 映 射 到 向 量 0 
X20-0X27 


outb(IO_PIC1 + 1, IRQ_ OFFSET); 


// 设置 主 8259A 的 ICW3: ICW3 是 8259A 的 级 联 命令 字 ， 给 ICW3 写 入 90X4，9X4 表 示 此 主 中 断 控制 器 的 第 2 个 IR 线 
(从 0 开始 计数 ) 连接 从 中 断 控制 器 。 


outb(IO_PIC1 + 1, 1 << IRQ SLAVE); 


// 设 置 主 8259A 的 ICW4 : 给 ICW4 写 入 90X3，0Xx3 表 示 采 用 自动 EOI 方 式 ， 即 在 中 断 响 应 时 ， 在 8259A 送 出 中 断 失 量 后 
， 自 动 将 ISR 相 应 位 复位 ; 并 且 采 用 一 般 谋 套 方式 ， 即 当 某 个 中 断 正在 服务 时 ， 本 级 中 断 及 更 低级 的 中 断 都 被 屏蔽 ， 只 
有 更 高 的 中 断 才 能 响应 。 


// ICW4 设 置 格式 为 : 090gnbmap 

// n: 1 = special fully nested mode 

// b: 1 = buffered mode 

// m: © = slave PIC, 1 = master PIC 

// (ignored when b is 0，as the master/slave role 
// can be hardwired). 

// a: 1 = Automatic EOI mode 

// [oe to) MCS-80/85 mode, 1 = intel x86 mode 
outb(IO_PIC1 + 1, Ox3); 


// 设 置 从 8259A 的 ICW1 : 含义 同上 

outb(I0_PIC2, Qx11); // ICW1 

// 设 置 从 8259A 的 ICW2 : 给 ICW2 写 入 0X28， 设 置 从 8259A 的 中 断 向 量 偏 移 值 为 Ox28 
outb(IO_PIC2 + 1, IRQ OFFSET + 8); // ICW2 

//0X2 表 示 此 从 中 断 控制 器 链接 主 中 断 控制 器 的 第 2 个 IR 线 

outb(I0_PIC2 + 1, IRQ SLAVE); // ICW3 

// 设 置 主 8259A 的 ICW4 : 含义 同上 

outb(IO_PIC2 + 1, QOx3); // ICW4 


// 设 置 主 从 8259A 的 0CW3 : 即 设置 特定 屏蔽 位 ( 值 和 英文 解释 不 一 致 )， 人 允许 中 断 诅 套 ; 不 查询 ; 将 读 入 其 中 断 请 求 
寄存 器 IRR 的 内 容 


// 0CW3 设 置 格式 为 : gefo1lprs 

// ef: 0x = NOP, 10 = clear Specific mask, 11 = set Specific mask 
// p: 0 = no polling, 1 = polling mode 

// rs: OQOx = NOP, 10 = read IRR, 11 = read ISR 

outb(I0_PIC1, Ox68); // clear specific mask 

outb(I0_PIC1, Ox0a); // read IRR by default 


outb(I0_PIC2, Ox68); // OCW3 
outb(I0_PIC2, Ox0a); // OCW3 


// 初 始 化 完毕 ， 使 能 主 从 8259A 的 所 有 中 断 


if (irq_mask != OxFFFF) { 
pic_setmask(irq_mask); 


实现 : 初始 化 中 断 控制 器 
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【实现 】 初 始 化 中 断 门 描述 符 表 


Ucore 操 作 系 统 如 果 要 正确 处 理 各 种 不 同 的 中 断 事件 ， 就 需要 安排 应 该 由 哪个 中 断 服务 例 程 负 
责 处 理 特定 的 中 断 事件 。 系 统 将 所 有 的 中 断 事件 统一 进行 了 编号 (0~-255) ， 这 个 编号 称 为 

中 断 号 或 中 断 向 量 。 

为 了 完成 中 断 号 和 中 断 服务 例 程 起 始 地 址 的 对 应 关系 ， 首 先 需 要 建立 256 个 中 断 处 理 例 程 的 入 
口 地 址 。 为 此 ， 通 过 一 个 C 程 序 tools/vector.c 生成 了 一 个 文件 vectors.S， 在 此 文件 中 的 


_ Vectors 地 址 处 开始 处 连续 存储 了 256 个 中 断 处 理 例 程 的 入 口 地 址 数组 ， 且 在 此 文件 中 的 每 
个 中 断 处 理 例 程 的 入 口 地 址 处 ， 实 现 了 中 断 处 理 过 程 的 第 一 步 初步 处 理 。 


有 了 中 断 服务 例 程 的 起 始 地 址 ， 就 可 以 建立 对 应 关系 了 ， 这 部 分 的 实现 在 trap.c 文 件 中 的 
idt_init 喜 数 中 实现 : 

// 全 局 变量 : 中 断 门 描述 符 表 

static struct gatedesc idt[256] = {{0}}; 

idt_init(void) { 


// 保 存在 vectors.S 中 的 256 个 中 断 处 理 例 程 的 入 口 地 址 数组 


extern uint32 t _ vectors[]; 
I tly 


// 在 中 断 门 描述 符 表 中 通过 建立 中 断 门 描述 符 ， 其 中 存储 了 中 断 处 理 例 程 的 代码 段 6D_KTEXT 和 偏 移 量 \、_vectors[ 
i]， 特 权 级 为 DPL_KERNEL。 这 样 通过 查询 idt[i] 就 可 定位 到 中 断 服务 例 程 的 起 始 地 址 。 


for (i = 0; i < sizeof(idt) / sizeof(struct gatedesc); i ++) { 
SETGATE(idt[i], 0, GD_KTEXT, _ vectors[i], DPL_KERNEL); 


} 


// 建 立 好 中 断 门 描述 符 表 后 ， 通 过 指令 Lidt 把 中 断 门 描述 符 表 的 起 始 地 址 装 入 IDTR 寄 存 器 中 ， 从 而 完成 中 段 描述 符 
表 的 初始 化 工作 。 


lidt(&idt_pd); 


【实现 】 外 设 的 相关 中 断 初 始 化 
串口 的 初始 化 函数 serial_init (位 于 /kern/driver/console.c) 中 涉及 中 断 初 始 化 工作 的 很 简单 : 


// 使 能 串口 1 接收 字符 后 产生 中 断 
outb(COM1 + COM_IER, COM_IER RDI); 


// 通过 中 断 控 制 器 使 能 串口 4 中 断 
pic_enable(IRQ COM1); 


键盘 的 初始 化 函数 kbd_init (位 于 kern/driver/console.c 中 ) 完成 了 对 键盘 的 中 断 初始 化 工作 ， 
具体 操作 更 加 简单 : 


// 通过 中 断 控制 器 使 能 键盘 输入 中 断 
pic_enable(IRQ_ KBD); 


时 钟 是 一 种 有 着 特殊 作用 的 外 设 ， 其 作用 并 不 仅仅 是 计时 。 在 后 续 章 节 中 将 讲 到 ， 正 是 由 于 
有 了 规律 的 时 钟 中 断 ， 才 使 得 无 论 当 前 CPU 运行 在 哪里 ， 操 作 系 统 都 可 以 在 预先 确定 的 时 间 
点 上 获得 CPU 控制 权 。 这 样 当 一 个 应 用 程序 运行 了 一 定时 间 后 ， 操 作 系 统 会 通过 时 钟 中 断 获 
得 CPU 控 制 权 ， 并 可 把 CPU 资源 让 给 更 需要 CPU 的 其 他 应 用 程序 。 时 钟 的 初始 化 函数 
clock_init (位 于 kern/driver/clock.c 中 ) 完成 了 对 时 钟 控制 器 8253 的 初始 化 : 


// 设 置 时 钟 每 秒 中 断 100 次 
outb(IO_TIMER1，TIMER_DIV(100) % 256); 
outb(IO_TIMER1，TIMER_DIV(100) / 256); 

// 通过 中 断 控制 器 使 能 时 钟 中 断 
pic_enable(IRQ_ TIMER); 


【 实现】 中断 处 理 过 程 


当中 断 产 生 后 ， 首 先 硬件 要 完成 一 系列 的 工作 (如 小 节 “ 中 断 处 理 中 硬件 负责 完成 的 工作 ”所 描 
述 的 “硬件 中 断 处 理 过 程 1 (起 始 ) ”内容 ) ， 由 于 中 断 发 生 在 内 核 态 执 行 过 程 中 ， 所 以 特权 级 
没有 变化 ， 所 以 CPU 在 跳 转 到 中 断 处 理 例 程 之 前 ， 还 会 在 内 核 栈 中 依次 压 入 错误 码 (可 

选 ) 、EIP、CS 和 EFLAGS， 下 图 显示 了 在 相同 特权 级 下 中 断 产生 后 的 栈 变 化 示意 图 : 


统一 特权 级 下 中 断 产 生 后 的 栈 变化 


Error Code 队 ESP After 
Jrasterto Handier 








然后 CPU 就 跳 转 到 IDT 中 记录 的 中 断 号 j 所 对 应 的 中 断 服务 例 程 入 口 地 址 处 继续 执行 。vectorS 
文件 中 定义 了 每 个 中 断 的 中 断 处 理 例 程 的 入 口 地 址 (保存 在 vectors 数组 中 )。 其 中 ， 中 断 可 以 
分 成 两 类 : 一 类 是 压 入 错误 编码 的 (error code)， 另 一 类 不 压 入 错误 编码 。 对 于 第 二 类 ， 
vector.S 自动 压 入 一 个 0。 此 外 ， 还 会 压 入 相应 中 断 的 中 断 号 。 在 内 核 栈 中 压 入 一 个 或 两 个 必 
要 的 参数 之 后 ， 都 会 跳 转 到 统一 的 入 口 _ alltraps 处 (位 于 trapentry.S 中 ) 继续 执行 。 


CPU 从 _ alltraps 处 开始 ， 在 栈 中 按照 trapframe 结 构 压 入 各 个 寄存 器 ， 此 时 内 核 栈 的 结构 如 下 
所 示 : 


Uint32_t reg_edi; 

Uint32_t reg_esi; 

Uint32_t reg_ebp; 

Uint32_t reg_oesp /* Useless */ 
Uint32_t reg_ebx; 

Uint32 _t reg_edx; 

Uint32_t reg_ecx; 

Uint32_t reg_eax; 

uint16 t tf_es; 

uint16 t tf_padding1; 

Uint16 t tf_ds; 

uint16_t tf_padding2; 

uint32_t tf_trapno; 

/* below here defined by x86 hardware */ 
uint32_t tf_err; 

uintptr_t tf_eip; 

uint16 t tf_cs; 

uint16_t tf_padding3; 

uint32_t tf_eflags; 


此 时 ， 为 了 将 来 能 够 恢复 被 打 断 的 内 核 执行 过 程 所 需 的 寄存 器 内 容 都 保存 好 了 。 为 了 正确 进 
行 中 断 处 理 ， 把 DS 和 ES 寄存 器 设置 为 GD KDATA， 这 是 为 了 预防 从 用 户 态 产生 的 中 断 ( 当 
然 ， 到 目前 为 止 ，Ucore 都 在 内 核 态 执行 ， 还 不 会 发 生 这 种 情况 ) 。 把 刚才 保存 的 trapframe 结 
构 的 起 始 地 址 〈 即 当前 SP 值 ) 压 栈 ， 然 后 调用 trap 函 数 (定义 在 trap.c 中 ) ， 就 开始 了 对 具体 
中 断 的 处 理 。trap 进 一 步调 用 trap_dispatch 有 函数 ， 完 成 对 具体 中 断 的 处 理 。 在 相应 的 处 理 过 程 
结束 以 后 ，trap 将 会 返回 ， 在 _ trapret: 中 ， 完 成 对 返回 前 的 寄存 器 和 栈 的 回复 准备 工作 ， 最 
后 通过 iret 指 令 返 回 到 中 断 打 断 的 地 方 继续 执行 。 整 个 中 断 处 理 流 程 大 致 如 下 : 


实 现 : 中 汤 处 理 过 程 


trapasm.S 
了 1) 产 生 中 断后 ，CPU 跳 转 到 相应 的 中 断 处 理 人 口 
(vectors)， 并 在 栈 中 压 人 相应 的 error_code {是 
香 存 在 与 异常 号 相关 ) 以 及 trap_no ， 然 后 跳 转 到 
alltraps, 吨 数 人 口 ， 
注意 ， 此 处 的 趴 转 是 jmp 过 程 


在 栈 电 柑 存 当前 被 打 断 程序 的 trapframe, 结 相 
(参见 过 程 rapasm,S) ,设置 kemel (内 楼 ) 的 数 
据 段 寄存 回报 后 奈 入 esP ， 作 为 trap 耳 数 考 数 
(struct trapframe * 内 并 如 转 到 中 断 处 理 函 数 
trap 处 ; 

注意 ， 此 时 的 跌 转 是 call 调用 ， 会 不 入 返回 地 扯 
全 PD， 注意 区 分 此 处 Qip 与 Wapframe 中 Qip: 

tapframe 的 结 风 为; 

Struct trapfame, 观察 trapfame 结 

{ 档 与 中 断 产 生 过 程 的 压 

uint edi; 栈 项 序 

uint esl; 需要 明确 Bushal 指 

uint ebp; 邻 部 可 存 了 哪些 寄存 器， 
按照 什么 顺序 ? 


Usha es; 
Whort paddingl; 
usbark dsl 
ushort padding2; |« trap_no 
uint trapno; “~ trap_error 


ulnt err; + 产生 中 斯 处 的 全 BR 
unt gp 


} 
进入 trap 琴 数 ， 对 中 断 进 行 相应 的 处 理 ; 


2) 说 细 的 中 断 分 类 以 及 处 理 流 程 如 下 ; 
根据 中 斯 号 对 不 同 的 中 断 进 行 处 理 。 基 中， 
若 中 断 号 是 IRQ_OFFSET + IRQ_TIMER 为 
时 钟 申 断 ， 则 把 tcks 将 增加 一 
若 中 断 号 是 IRQ_OFFSET + IRQ_COM1 
为 串口 昌 盯 ， 则 显示 收 到 的 字符 
若 申 断 号 是 IRQ_OFFSET + IRQ_KBD 为 
键盘 中 断 ， 则 显示 收 到 章 和 字符 
3) 结 束 trap 丙 数 的 执行 后 ,通过 坝 K 指令 返回 到 站 
引 lltraps, 执行 过 程 各 
从 栈 申 局 复 所 有 寄存 器 的 从 
调整 esp 的 值 ， 卡 过 槐 中 的 Tap_noj 与 
error_code, 使 esp 指向 申 斯 返回 人 BR， 通过 Iret 
酒 用 以 复 cs , 可 lag 以 及 人 BR， 纵 于 执行 
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可 在 内 核 态 和 用 户 态 之 间 进 行 切 换 的 ucore 


在 操作 系统 原理 中 ， 一 直 强 调 操作 系统 运行 在 内 核 态 (特权 态 ) ， 应 用 程序 运行 在 用 户 态 

(非特 权 态 ) 。 但 为 什么 说 处 于 用 户 态 的 应 用 程序 就 不 能 访问 内 核 态 的 数据 ， 而 内 核 态 的 操 
作 系 统 可 以 访问 用 户 态 的 数据 ? 我们 有 没有 一 个 project 来 体验 内 核 态 和 用 户 态 的 区 别 是 什 
么 ?更 进一步 体验 如 何在 内 核 态 和 用 户 态 之 问 进行 切换 呢 ? project4.1.1 为 此 进行 了 尝试 。 


实验 目标 


通过 学 习 和 实践 ， 读 者 可 以 了 解 如 何 CPU 处 不 同 特权 态 下 的 执行 特点 和 限制 ， 理 解 如 何 从 内 
核 态 切换 到 用 户 态 ， 以 及 如 何 从 用 户 态 切换 到 内 核 态 。 


proj4.1.1 概 述 


实现 描述 


proj4.1.1 建 立 在 proj4.1 (当然 是 基于 proj4) 基础 之 上 ， 主 要 完成 了 用 户 态 (非特 权 态 ) 与 内 
核 态 相互 切换 的 过 程 。 相 对 于 proj4， 主 要 增加 了 两 部 分 工作 ， 一 部 分 是 从 用 户 态 返回 内 核 态 
的 准备 工作 ， 即 建立 任务 段 (Task Segment) 和 任务 段 描述 符 (SEG_TSS) ， 设 置 陷阱 中 
断 号 (T_SWITCH_TOK) 和 对 应 的 中 断 处 理 例 程 。 另 外 一 部 分 是 对 内 核 栈 进行 各 种 特殊 处 

理 ， 使 得 能 够 完成 内 核 态 切换 到 用 户 态 或 用 户 态 切换 到 内 核 态 的 工作 。 


项 目 组 成 


这 里 我 们 通过 proj4.1.1 来 完成 此 事 。proj4.1.1 整 体 目录 结构 如 下 所 示 : 


|-- memlayout.h 
|-- mmu.h 
|-- pmm.c 
pmm.h 


|-- trap.c 

|-- trapentry.S 
|-- trap.h 

`-- vectors.s 


相对 于 proj4， 改 动 不 多 ， 主 要 修改 和 增加 的 文件 如 下 : 


。 memlayout.h : 定义 了 全 局 描述 符 的 索引 值 和 一 些 段 描述 符 的 属性 。 

。 pmm.[ch] : 为 了 能 够 使 CPU 从 用 户 态 转换 到 内 核 态 ， 在 ucore 初 始 化 时 ， 设 置 任务 段 和 任 
务 段 描述 符 ， 重 新 加 载 任务 段 和 段 描述 符 表 ; 

。 trap.c : 设置 自 定义 的 陷阱 中 断 T_ SWITCH_TOK (用 于 用 户 态 切换 到 内 核 态 ) 和 实现 对 
自 定义 的 陷阱 中 断 T_ SWITCH_TOK/T_SWITCH_TOU 的 中 断 处 理 例 程 ， 使 得 CPU 能 够 在 
内 核 态 和 用 户 态 之 间 切 换 。 


编译 并 运行 proj4.1.1 的 命令 如 下 : 


make 
make qemu 


则 可 以 得 到 如 下 显示 界面 


QENU 因 ] 
Special kernel symbols: 

entry QOQxQ0100000 (phys) 

etext 0Oxo001031fe (phys) 

edata QOQxQQ10Qe9398 (phys) 

end OxoOo1of cao (phus) 
kernel executable memory footprint: 
++ Setup timer interrupts 


-— Switch to user mode 一 一 一 


Il Il NI 


-— Switch to kernel mode --—— 
ring 0 

CS 
ds 
ES 
SS 





通过 上 图 ， 我 们 可 以 看 到 Ucore 在 切换 到 用 户 态 之 前 ， 先 显示 了 当前 CPU 的 特权 级 (CS 的 最 
低 两 位 ) ，CS/DS/ES/SS 的 值 ( 即 对 应 的 段 描述 符 表 的 索引 值 ) ， 可 以 看 到 特权 级 为 0。 根据 
lgdt 吉 数 (位 于 kern/mm/pmm.c 中 ) 的 处 理 ，CS 的 值 是 内 核 代码 段 描述 符 的 索引 下 标 ， 
DS/ES/SS 的 值 是 内 核 数据 段 描述 符 的 索引 下 标 ; 而 在 切换 到 用 户 态 后 ， 又 显示 了 一 下 ， 当 前 
CPU 的 特权 级 为 3，CS 的 值 为 1b，DS/ES/SS 的 值 为 23， 把 这 四 个 寄存 器 的 值 &0xfc， 则 分 别 
为 0x18 (SEG_UTEXT) 和 0x20 (SEG_UDATA) ， 说 明确 实 运行 在 用 户 态 了 。 在 执行 了 系 
统 调 用 T_SWITCH_TOK 后 ， 又 回 到 了 内 核 态 。 下 面 我 们 将 分 析 到 底 发 生 了 什么 事情 。 


【背景 】 分 段 机 制 的 特权 限制 


在 保护 模式 下 ， 特 权 级 总 共有 4 个 ， 编 号 从 0 (最 高 特权 ) 到 3 (最 低 特 权 ) 。 三 类 主要 的 资 
源 ， 即 内 存 、1/O 地 址 空间 以 及 特权 指令 需要 保护 。 特 权 指 令 如 果 被 用 户 态 的 程序 所 使 用 ， 就 
会 受到 保护 模式 的 保护 机 制 限制 ， 导 至 一 个 故障 中 断 (general-protection exception ) 。 对 内 


存 和 |/O 端 口 的 访问 存在 类 似 的 特权 级 限制 。 为 了 更 好 地 理解 不 同 特权 级 ， 这 里 先 介绍 三 个 概 


外 一 口 一 一 
念 
心 


。 CPL : 当前 特权 级 (Current Privilege Level) 保存 在 CS 段 寄存 器 (选择 子 ) 的 最 低 两 
位 ，CPL 就 是 当前 活动 代码 段 的 特权 级 ， 并 且 它 定义 了 当前 所 执行 程序 的 特权 级 别 ) 

DPL : 描述 符 特 权 (Descriptor Privilege Level) 存储 在 段 描述 符 中 的 权限 位 ， 用 于 描述 
对 应 段 所 属 的 特权 等 级 ， 也 就 是 段 本 身 夏 正 的 特权 级 。 

RPL : 请 求 特权 级 RPL(Request Privilege Level) RPL 保 存在 选择 子 的 最 低 两 位 。RPL 说 
明 的 是 进程 对 段 访问 的 请 求 权 限 ， 意 思 是 当前 进程 想 要 的 请 求 权 限 。RPL 的 值 由 程序 员 
自己 来 自由 的 设置 ， 并 不 一 定 RPL>=CPL ， 但 是 当 RPL\<CPL 时 ， 实 际 起 作用 的 就 是 CPL 
了 ， 因 为 访问 时 的 特权 检查 是 判断 : max(RPL,CPL)<=DPL 是 否 成 立 ， 所 以 RPL 可 以 看 成 
是 每 次 访问 时 的 附加 限制 ，RPL=0 时 附加 限制 最 小 ，RPL=3 时 附加 限制 最 大 。 


【背景 】80386 的 任务 切换 


任务 是 80386 硬 件 描述 中 的 一 个 名 词 ， 在 这 里 我 们 8 以 简单 地 把 运行 在 内 核 态 的 ucore 成 为 一 
个 任务 ， 把 运行 在 用 户 态 的 应 用 称 为 另外 一 任务 。 任 务 寄存 器 (Task Register， 简 称 TR) 储存 
了 一 个 16 位 的 选择 子 (对 软件 可 见 )， 用 来 索引 述 符 表 (GDT) 中 的 一 项 。TR 对 应 的 描述 符 
描述 的 一 个 任务 状态 段 (TSS:Task Status Segment) 。 


TSS 任务 状态 段 (Task State Segment， 简 称 TSS)。 任 务 状 态 段 (TSS ) 人 的 一 个 
系统 段 描述 符 。 任 务 状 态 段 是 做 什么 的 呢 ? 任务 状态 段 就 是 内 存 中 的 一 个 数据 结构 。 这 个 结 
构 中 保存 着 和 任务 相关 的 信息 。 当 发 生 任务 切换 的 时 候 会 把 当前 任务 用 到 的 寄存 器 内 容 (CS/ 
EIP/ DS/SS/EFLAGS...) 等 保存 在 TSS 中 以 便 任 务 切换 回来 时 候 继 续 使 用 。Ucore 根 据 80386 硬 
件 手册 建立 的 TSS 数 据 结 构 如 下 所 示 : 


struct taskstate { 


uint32_t ts_link; // 链接 字段 
uintptr_t ts_espQ; // 0 级 栈 指 针 
uint16_t ts_ss9， // 0 级 栈 段 寄存 器 


uint16_t ts_ padding1; 
uintptr_t ts_esp1; 
uint16 t ts_ssi1; 
uint16_t ts_padding2; 
uintptr_t ts_esp2; 
uint16 t ts_ss2; 
uint16_t ts_padding3; 


physaddr_t ts_cr3; // 页 目录 基 址 寄存 器 
uintptr_t ts_eip; // 切换 的 上 次 EIP 
uint32_t ts_eflags; 

uint32_t ts_eax; // 保存 的 通用 寄存 器 eax 


uint32 _t ts_ecx; 

uint32 _t ts_edx; 

uint32_t ts_ebx; 

uintptr_t ts_esp; 

uintptr_t ts_ebp; 

uint32 _t ts_esi,; 

uint32 _t ts_edi; 

uint16_t ts_es; // 保存 的 段 寄存 器 

uint16_t ts_padding4; 

uint16 t ts_cs; 

uint16_t ts_paddings; 

uint16 t ts_ss; 

uint16 t ts_padding6; 

uint16_t ts_ds; 

uint16_t ts_padding7; 

uint16 t ts fs; 

uint16_t ts_padding8; 

uint16_t ts_gs; 

uint16_t ts_padding9; 

uint16 t ts_ldt; 

uint16_t ts_padding10; 

uint16_t ts_t; // 调试 陷阱 标志 (只 用 位 0) 

uint16_t ts_iomb; // i/o map 基地 址 
}; 


从 上 图 中 可 以 ，TSS 的 基本 格式 由 104 字 节 组 成 。 这 104 字 节 的 基本 格式 是 不 可 改变 的 ， 但 在 
此 之 外 系统 软件 还 可 定义 若干 附加 信息 。 基 本 的 104 字 节 可 分 为 链接 字段 区 域 、 内 层 栈 指针 区 
域 、 地 址 映射 寄存 器 区 域 、 寄 存 器 保存 区 域 和 其 它 字 段 等 五 个 区 域 。 


其 中 比较 重要 的 是 内 层 栈 指针 区 域 ， 为 了 有 效 地 实现 保护 ， 同 一 个 任务 在 不 同 的 特权 级 下 使 
用 不 同 的 栈 。 例 如 ， 当 从 外 层 特权 级 3 变换 到 内 层 特权 级 0 时 ， 任 务 使 用 的 栈 也 同时 从 3 级 变换 
到 0 级 栈 ; 当 从 内 层 特权 级 0 变换 到 外 层 特 权 级 3 时 ， 任 务 使 用 的 栈 也 同时 从 0 级 栈 变换 到 3 级 
栈 。 所 以 ucore 使 用 的 是 0 级 栈 ， 用 户 态 应 用 使 用 的 是 3 级 栈 。TSS 的 内 层 栈 指针 区 域 中 有 三 个 


栈 指针 ， 它 们 都 是 48 位 的 全 指针 (16 位 的 选择 子 和 32 位 的 偏 移 )， 分 别 指向 0 级 、1 级 和 2 级 栈 的 
栈 顶 ， 依 次 存放 在 TSS 中 偏 移 为 4、12 及 20 开 始 的 位 置 。 当 发 生 从 3 级 向 0 级 转移 时 ， 把 0 级 栈 

指针 装 入 0 级 的 SS 及 ESP 寄 存 器 以 变换 到 0 级 栈 。 没 有 指向 3 级 栈 的 指针 ， 因 为 3 级 是 最 外 层 ， 

所 以 任何 一 个 向 内 层 的 转移 都 不 可 能 转移 到 3 级 。 但 是 ， 当 特权 级 由 0 级 向 3 级 变换 时 ， 并 不 把 
0 级 栈 的 指针 保存 到 TSS 的 栈 指 针 区 域 。 这 表明 向 3 级 向 0 级 转移 时 ， 总 是 把 0 级 栈 认 为 是 一 个 

空 栈 。 


当 发 生 任务 切换 时 ，80386 中 各 寄存 器 的 当前 值 被 自动 保存 到 TR 所 指定 的 TSS 中 ， 然 后 下 一 

任务 的 TSS 的 选择 子 被 装 入 TR ; 最 后 ， 从 TR 所 指定 的 TSS 中 取出 各 寄存 器 的 值 送 到 处 理 器 的 
各 寄存 器 中 。 由 此 可 见 ， 通 过 在 TSS 中 保存 任务 现场 各 寄存 器 状态 的 完整 映 象 ， 实 现任 务 的 

切换 。 


【实现 】 内 核 态 切换 到 用 户 态 


pe Cc 中 的 switch_test 骂 数 完成 了 内 核 态 <--> 用 户 态 之 间 的 切换 。 内 核 态 切换 到 用 户 态 

是 通过 swtich_to_user 元 数 ， 执 行 指令 “int T_SWITCH_TOU”。 当 CPU 执 行 这 个 指令 时 ， 由 于 
是 在 switch_to_user 执 行 在 内 核 态 ， 所 以 不 存在 特权 级 切换 问题 ， 硬 件 只 会 在 内 核 栈 中 压 入 
Error Code (可 选 )、EIP、CS 和 EFLAGS (如 下 图 所 示 ) ， 然 后 跳 转 到 到 IDT 中 记录 的 中 断 
号 T_SWITCH_TOU 所 对 应 的 中 断 服务 例 程 入 口 地 址 处 继续 执行 。 通 过 2.3.7 小 节 “ 中 断 处 理 过 
程 " 可 知 ， 会 执行 到 trap_disptach 声 数 (位 于 trap.c) 


case T_SWITCH_TOU: 
if (tf->tf_cs != USER CS) { 
// 当 前 在 内 核 态 ， 需 要 建立 切换 到 用 户 态 所 需 的 trapframe 结 构 的 数据 switchk2u 
switchk2u = *tf; 
switchk2u.tf_cs = USER_CS ， 
switchk2u.tf_ds = Switchk2u.tf es = switchk2u.tf_ss = USER_DS; 
switchk2u.tf_esp = (uint32_t)tf + sizeof(struct trapframe) - 8; 
// 设 置 EFLAG 的 IT/0 特 权 位 ， 使 得 在 用 户 态 可 使 用 in/out 指 令 
switchk2u.tf_eflags |= (3 << 12); 
// 设 置 临时 栈 ， 指 向 Switchk2u， 这 样 iret 返 回 时 ，CPU 会 从 Switchk2u 恢 复数 据 ， 
// 而 不 是 从 现 有 栈 恢复 数据 。 
*((uint32 t *)tf - 1) = (uint32_t)&switchk2u 


这 样 在 trap 将 会 返回 ， 在 _trapret: 中 ， 根 据 switchk2u 的 内 容 完成 对 返回 前 的 寄存 器 和 栈 的 回 
复 准 备 工作 ， 最 后 通过 iret 指 令 ，CPU 返 回 "intT_SWITCH_TOU” 的 后 一 条 指令 处 ， 以 用 户 态 
模式 继续 执行 。 


有 特权 级 变化 的 中 断 产生 后 堆栈 内 容 
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【实现 】 用 户 态 切 换 到 内 核 态 


CPU 在 用 户 态 执行 到 switch_to_kernel() 函 数 〈 即 执行 "intT_SWITCH_TOK") 时 ， 由 于 当前 处 

于 用 户 态 ， 而 中 断 产 生 后 ，CPU 会 进入 内 核 态 ， 所 以 存在 特权 级 转换 。 硬 件 会 在 内 核 栈 中 压 

入 Error Code〈 可 选 ) 、EIP、CS 和 EFLAGS、ESP (用 户 态 特权 级 的 ) 、SS (用 户 态 特权 

级 的 ) (如 下 图 所 示 ) ， 然 后 跳 转 到 到 IDT 中 记录 的 中 断 号 T_SWITCH_TOK 所 对 应 的 中 断 服 
务 例 程 入 口 地 址 处 继续 执行 。 通 过 2.3.7 小 节 “ 中 断 处理 过 程 " 可 知 ， 会 执行 到 trap_disptach 函 数 
(位 于 trap.c ) 


case T_SWITCH_TOK: 
if (tf->tf_cs != KERNEL CS) { 

// 发 出 中 断 时 ，CPU 处 于 用 户 态 ， 我 们 希望 处 理 完 此 中 断后 ，CPU 继 续 在 内 核 态 运行 ， 
// 所 以 把 tf->tf_cs 和 tf->tf_ds 都 设置 为 内 核 代码 段 和 内 核 数 据 段 

tf->tf_cs = KERNEL_CS; 

tf->tf ds = tf->tf_es = KERNEL_DS; 

// 设 置 EFLAGS， 让 用 户 态 不 能 执行 jn/out 指 令 

tf->tf_eflags &= ~(3 << 12); 


switchu2k = (struct trapframe *)(tf->tf_esp - (sizeof(struct trapframe) - 8)); 
// 设 置 临时 栈 ， 指 向 switchu2k， 这 样 iret 返 回 时 ，CPU 会 从 switchu2k 恢 复数 据 ， 
// 而 不 是 从 现 有 栈 恢 复数 据 。 
memmove(switchu2k, tf, sizeof(struct trapframe) - 8); 
*((uint32 t *)tf - 1) = (uint32_t)switchu2k; 
} 


break; 


这 样 在 trap 将 会 返回 ， 在 _ trapret: 中 ， 根 据 switchk2u 的 内 容 完成 对 返回 前 的 寄存 器 和 栈 的 回 
复 准 备 工作 ， 最 后 通过 iret 指 令 ，CPU 返 回 “int T_SWITCH_TOU” 的 后 一 条 指令 处 ， 以 内 核 术 
模式 继续 执行 。 
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原理 归纳 与 小 结 


读者 通过 阅读 本 章 和 做 实验 ， 相 信 已 经 党 试 了 加 载 操作 系统 、 操 作 系 统 访问 外 设 、 操 作 系统 
处 理 中 断 、 用 户 态 与 内 核 态 切换 等 一 系列 小 project 。 这 里 面体 现 了 哪些 操作 系统 的 原理 和 概 
念 呢 ? 


系统 软件 : 在 这 里 读者 应 该 体会 到 操作 系统 是 一 个 软件 ， 采 用 编译 器 生成 可 执行 代码 ， 通 过 
bootloader 加 载 到 内 存 中 执行 ， 可 以 执行 所 有 CPU 指令 (包括 特权 指令 ) ， 访 问 到 所 有 硬件 资 
源 。 相 对 于 一 般 的 应 用 软件 ， 它 主要 完成 的 工作 是 对 计算 机 的 硬件 资源 管理 ， 并 给 上 层 应 用 
提供 服务 (这 里 还 体现 不 够 ) 。 所 以 我 们 把 操作 系统 看 成 是 提供 计算 机 系统 级 管理 和 基础 共 
性 服务 的 一 种 系统 软件 。 


段 式 的 内 存 管 理 : 在 这 里 读者 应 该 体会 到 CPU 访问 的 地 址 首先 是 一 个 虚拟 地 址 ， 然 后 通过 

MMU 的 段 式 地 址 保护 检查 和 变换 (这 要 看 段 描述 符 表 中 的 描述 符 是 如 何 设 置 段 基 址 和 段 范 围 
的 ) 才能 把 庶 拟 地 址 变换 成 线性 地 址 〈 由 于 没有 局 动 分 页 机 制 ， 线 性 地 址 就 是 物理 地 址 ) ， 
如 果 虚 拟 地 址 的 偏 移 值 超过 了 段 范围 值 ， 这 会 出 现 故 障 中 断 。 


中 断 处 理 : 在 这 里 读者 应 该 体会 到 中 断 包 含 了 外 设 产 生 的 外 设 中 断 (来 的 时 机 不 确定 ) 和 
CPU 主 动产 生 的 陷阱 中 断 (执行 特定 指令 就 会 产生 ) ， 有 了 中 断 ， 操 作 系 统 就 可 以 随时 打 断 
CPU 正 常 的 顺序 执行 ， 转 而 处 理 相对 更 加 紧急 的 中 断 事件 。 为 了 能 够 让 CPU 继 续 正常 执行 ， 
在 中 断 处 理 前 需要 保存 足够 的 硬件 信息 (主要 是 CPU 各 种 寄存 器 的 值 ， 一 般 放 在 内 核 栈 

中 ) ， 以 便于 中 断 处 理 完毕 后 ， 通 过 恢复 这 些 硬件 信息 ， 能 够 回 到 被 打 断 的 地 方 继续 执行 。 


特权 级 : 在 这 里 读者 应 该 体会 到 在 不 同 的 特权 级 可 以 完成 的 事情 是 不 一 样 的 。 操 作 系 统 需要 
管理 整个 计算 机 资源 ， 所 以 它 应 该 运行 在 CPU 的 最 高 特权 级 ， 而 应 用 程序 不 必 也 不 能 使 用 特 
权 指 令 或 访问 操作 系统 的 地 址 空间 ， 所 以 它 应 该 运行 在 CPU 的 非特 权 级 。 如 果 应 用 程序 执行 
特权 指令 或 访问 操作 系统 的 的 地 址 空间 ， 则 CPU 硬件 的 安全 检查 机 制 会 阻止 应 用 程序 的 执行 
并 尝试 故障 中 断 ， 把 CPU 控制 权 转 给 操作 系统 进行 进一步 处 理 。 如 果 应 用 程序 需要 访问 计算 
机 资源 ， 可 以 通过 执行 特定 的 指令 ， 产 生 陷 阱 中 断 ， 从 而 完成 从 用 户 态 到 内 核 态 的 切换 ， 让 
操作 系统 为 应 用 程序 提供 服务 。 


物理 内 存 管理 


一 个 编程 人 员 和 希望 拥有 容量 无 限 大 、 速 度 无 限 快 ， 而 且 是 非 易 失 型 的 (nonvolatile) 的 内 存 空 
间 ， 到 lab1 为 止 ， 这 个 梦想 还 无 法 轻易 满足 。 为 此 绝 大 多 数 的 计算 机 采用 了 一 种 折衷 的 方法 ， 
即 建立 一 个 分 层 的 存储 器 结构 ， 最 高 层 是 CPU 内 部 的 一 些 寄存 器 ， 它 们 的 访问 速度 是 最 快 
的 ， 但 容量 不 是 很 大 ， 一 般 小 于 1KB ; 第 二 层 是 高 速 缓存 ( 即 硬件 cache) ， 实 现在 CPU 内 
部 ， 接 近 寄 存 器 速度 ， 容 量 一 般 小 于 4MB ; 第 三 层 是 主 存储 器 ( 内存) ， 其 访问 速度 比 寄存 
器 小 一 个 数量 级 、 价 格 便宜 ， 目 前 几 百 块 人 民 币 就 可 以 买 到 4GB。 以 上 这 三 种 存储 器 都 是 多 
失 型 的 ， 即 在 断 电 后 ， 其 内 容 全 部 会 丢失 掉 。 第 四 层 是 磁盘 ， 它 的 访问 速度 较 慢 、 价 格 较 便 
宜 ， 目 前 花 几 百 块 钱 就 可 以 买 到 存储 容量 >1TB 的 硬盘 ， 而 且 是 非 易 失 型 的 。 


操作 系统 需要 尽量 满足 编程 人 员 的 梦想 ， 为 此 它 需要 管理 上 述 存储 器 层次 结构 形成 的 存储 空 
间 ， 并 完成 如 下 主要 任务 : 


e。 记录 存储 空间 的 使 用 情况 ， 即 记录 哪些 部 分 正在 被 使 用 ， 哪 些 部 分 还 空 亲 ; 

。 当 需 求 方 需要 存储 空间 时 ， 能 快速 地 分 配给 它 合适 大 小 的 空 2 te 

要 申请 到 的 存储 空间 时 ， 能 把 存储 空间 回收 ， 便 于 以 后 的 分 
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存 空间 。 这 种 机 制 称 为 地 址 保护 (地址 隔离 ) 机 制 。 

e。 如 果 内 存 太 小 ， 就 需要 把 内 存 当 中 使 用 较 少 的 数据 所 占 空间 送 到 磁盘 上 ， 给 使 用 较 多 的 
数据 腾 出 内 存 空间 来 ; 如 果 将 来 又 访问 到 缓存 到 硬盘 的 数据 ， 需 要 把 这 些 数据 重新 加 载 
到 内 存 中 进行 访问 。 这 种 机 制 称 为 换 入 换 出 (swap in/out) 机 制 ， 并 涉及 页 替换 算法 。 

e。 即使 需求 方 表明 了 需要 内 存 ， 但 如 果 需 求 方 没有 实际 访问 所 需 内 存 前 ， 则 并 不 完成 实际 
的 物理 内 存 分 配 。 这 种 机 制 称 为 按 需 分 配 (如 果 是 基于 很 分 页 机 制 ， 也 称 为 按 需 分 
页 ) 。 

e。 设 两 个 具有 父子 关系 的 程序 共享 同一 地 址 空间 ( 子 程序 同 享 父 程 序 的 地 址 空间 ) ， 若 二 
程序 只 是 读 此 地 址 空间 ， 则 地 址 空间 不 会 有 变化 ; 若 其 中 一 个 程序 对 此 地 址 空间 菜 地 址 
进行 了 写 操作 ， 则 要 把 包含 此 地 址 的 页 空间 复制 一 份 给 执行 写 操作 的 程序 ， 这 时 此 二 程 
序 将 有 不 同 的 地 址 空间 ， 可 独立 运行 ， 相 互 不 干扰 。 这 种 机 制 减少 了 父 程 序 创建 子 程序 
地 址 空间 的 开销 ， 称 为 写 时 复制 (Copy On Write， 简 称 COW ) 机 制 。 


本 章 内 容 主要 涉及 操作 系统 的 内 存 管 理 ， 和 包括 物理 内 存 管 理 和 基于 分 页 机 制 的 虚拟 内 存 管 
理 。 读 者 通过 阅读 本 章 的 内 容 并 动手 实践 相关 的 5 个 project 实 验 : 


。 proj5 : 能 够 探测 物理 内 存 并 建立 页 表 ， 实 现 分 页 管理 

e。 proj5.1/5.1.1/5.1.2 : 实现 基于 连续 物理 页 的 first/best/worst-fit 分 配 算法 

e proj5.2 : 实现 基于 连续 物理 页 的 buddy 分 配 算法 

e proj6 : 实现 任意 大 小 内 存 分 配 的 slab 分 配 算法 

e proj7 : 实现 缺 页 中 断 服 务 例 程 和 虚拟 内 存 管理 结构 (VMM struct) ， 提 供 按 需 分 页 的 支 
持 


e proj8 : 实现 类 似 改 进 时 钟 算法 的 页 面 置换 算法 并 支持 页 粒度 的 换 入 换 出 机 制 
e proj9/proj9.1/proj9.2 : 完善 虚 存 管理 (proj9) 并 逐步 实现 了 进程 间 内 存 共享 (proj9.1) 和 
copy on write (COW) 机 制 (proj9.2) 


可 以 掌握 如 下 知识 : 


e 与 操作 系统 原理 相关 

。 内 存 管理 : 基于 分 页 机 制 的 内 存 管 理 

e 内 存 管 理 : 连续 内 存 分 配 算法 

e 内 存 管 理 : 非 连 续 内 存 分 配 算法 

e。 内 存 管理 和 中 断 : 缺 页 中 断 服 务 例 程 

e 内 存 管 理 : 虚 存 管理 中 的 页 面 置换 算法 和 页 换 入 换 出 机 制 
e。 内 存 管理 : 按 需 分 页 机 制 和 写 时 复制 机 制 

。 操作 系统 原理 之 外 

。 80386 对 分 页 管理 (页 表 等 ) 的 硬件 支持 

。 页 粒度 的 页 面 置换 策略 和 页 换 入 换 出 的 具体 实现 


本 章 内 容 中 主要 涉及 内 存 管理 的 重要 功能 主要 有 两 个 : 


。 提供 空闲 内 存 空间 : 这 样 给 操作 系统 和 应 用 程序 的 代码 和 数据 足够 的 存放 "地方 "， 使 得 二 
者 能 够 正常 高 效 地 运行 ， 为 此 需要 完成 内 存 / 外 存 的 空间 的 分 配 、 管 理 、 释 放 等 工法 。 

。 提供 内 存 空 间隔 离 保护 : 隔离 用 户 态 应 用 程序 和 内 核 态 操作 系统 之 间 ， 以 及 不 同 应 用 程 
序 之 间 的 内 存 空间 ， 使 得 不 会 出 现 访问 冲突 ， 为 此 需要 为 不 同 的 应 用 程序 和 操作 系统 划 
分 不 同 的 地 址 空间 ， 一 个 应 用 程序 越界 规定 的 地 址 空间 会 出 现 内 存 访问 故障 中 断 。 


为 了 让 读者 能 够 从 实践 上 来 理解 内 存 管 理 的 基本 原理 ， 我 们 设计 了 上 述 实 验 ， 主 要 的 功能 逐 
步 实现 如 下 所 示 : 


e。 首先 是 扩展 ucore 的 功能 ， 使 它 能 够 发 现 并 管理 PC 系统 中 可 用 的 空闲 物理 内 存 ; 

e 然后 是 建立 分 页 机 制 ， 建 立 线性 地 址 〈 分 段 机制 已 经 完成 了 逻辑 地 址 到 线性 地 址 的 转 
换 ) 到 物理 地 址 的 映射 关系 和 具体 转换 操作 ， 这 样 使 得 应 用 程序 无 法 直接 访问 到 物理 地 
址 ， 而 是 只 能 访问 由 操作 系统 设 定 好 的 物理 地 址 空间 ， 从 而 使 得 应 用 程序 的 访问 空间 可 
控 

。 为 了 高 效 地 完成 操作 系统 的 其 他 功能 单元 和 应 用 程序 的 空闲 内 存 空间 需求 ， 需 要 设计 以 
页 (4096 字 节 ) 为 最 小 分 配 单位 的 面向 连续 物理 地 址 空间 的 内 存 分 配 算法 ; 还 要 设计 面 
向 任意 大 小 的 内 存 空间 (在 物理 地 址 空间 上 不 一 定 连续 ) 的 虚拟 内 存 分 配 算法 ; 

@ 为 了 给 应 用 程序 提供 超过 实际 物理 内 存 空间 大 小 的 虚拟 内 存 空 间 ， 需 要 把 临时 不 常用 到 
的 内 存 换 出 (swap out) 到 硬盘 (也 称 外 存 ) 中 ， 等 到 需要 访问 的 时 候 ， 再 换 入 (swap 
in) 到 内 存 中 。 设 计 高 效 的 页 面 置换 算法 会 尽量 保存 经 常 访问 的 数据 在 内 存 中 ， 而 不 经 常 
访问 的 数据 会 换 出 到 硬盘 中 。 


物理 内 存 管 理 


2 


试验 目标 


操作 系统 和 应 用 程序 都 需要 内 存 空 间 来 存放 代码 和 数据 ， 这 要 求 操作 系统 能 够 高 效 管理 和 保 
护 整个 计算 机 中 的 物理 内 存 ， 并 给 自己 和 上 层 应 用 提供 简洁 安全 的 内 存 申请 和 释放 的 服务 接 
口 。 通 过 分 段 机 制 可 以 完成 虚拟 地 址 到 线性 地 址 的 转换 ， 而 通过 分 页 机 制 可 以 进一步 完成 线 
性 地 址 到 物理 地 址 的 转换 。 分 段 机 制 中 对 每 段 的 大 小 是 可 变 的 ， 分 页 机 制 中 页 的 大 小 固定 为 
4KB， 这样 在 操作 系统 对 实现 内 存 管理 上 会 更 加 简洁 。 所 以 在 建立 好 分 页 机 制 后 ， 分 段 机 制 的 
映射 功能 退化 为 对 等 映射 ， 即 虚拟 地 址 = 线性 地 址 ， 这 样 实际 的 地 址 映射 工作 将 由 分 页 机 制 来 


为 此 Ucore 需 要 在 已 有 的 分 段 机 制 的 基础 上 ， 进 一 步 加 入 分 页 机 制 ， 达 到 可 以 通过 分 页 完成 对 
不 同 应 用 程序 执行 的 内 存 空间 进行 隔离 〈 其 实 分 段 也 能 够 达到 此 目的 ， 但 相对 实现 的 开销 会 
比较 大 ， 受 到 的 限制 ( 比如 支持 的 应 用 执行 个 数 ) 也 较 多 ) 的 目标 。 并 且 为 后 续 的 虚 存 管理 
提供 基础 支持 。 


proj5/5.1/5.1.1/5.1.2/5.2 概 述 


实现 描述 


proj5 基 于 proj4.3 实 现 ， 主 要 完成 了 对 计算 机 实际 物理 内 存 大 小 与 分 布 的 探测 ， 实 现 以 页 (大 
小 为 4KB ) 为 单位 的 简单 物理 内 存 管理 ， 并 通过 建立 二 级 页 表 ， 实 现 了 分 页 内 存 管理 ， 为 将 来 
试验 中 实现 虚 存 管理 打下 一 个 基础 。 通 过 分 析 和 实现 proj5， 读 者 可 以 了 解 到 : 


e@ 物理 内 存 空 间 布 局 的 探测 ; 
e@ 基于 分 页 机 制 的 存储 管理 ; 
e@ 32 位 地 址 空间 的 二 级 页 表 结 构 ; 


proj5.1 在 proj5 的 基础 上 实现 了 基于 best fit 内 存 分 配 算 法 的 页 级 内 存 分 配 和 释放 功能 ; 
proj5.1.1 在 proj5.1 的 基础 上 实现 了 first ft 内 存 分 配 算法 的 页 级 内 存 分 配 和 释放 功能 ; proj5.1.2 
在 proj5.1 的 基础 上 实现 了 worst 信 内 存 分 配 算法 的 页 级 内 存 分 配 和 释放 功能 ; proj5.2 在 proj5.1 
的 基础 上 实现 了 更 加 实用 和 强大 的 buddy 内 存 分 配 算法 的 页 级 内 存 分 配 和 释放 功能 。 这 些 proj 
是 操作 系统 原理 相关 算法 的 具体 实现 。 读 者 可 以 参考 这 些 实现 完成 新 的 内 存 分 配 算法 。 在 这 
里 通过 讲解 proj5 的 实现 ， 让 读者 理解 如 何 基 于 一 个 内 存 分 配 管理 框架 来 实现 不 同 的 内 存 分 配 
算法 。 


项 目 组 成 


projs 
-- boot 
|-- asm.h 
|-- bootasm.S 
`“-- bootmain.c 


| 
| 
| 
| 
|-- kern 
| |-- init 
| | |-- entry.S 
| | “-- init.c 
| 1-- mm 
| | |-- default_pmm.c 
| | |-- default_pmm.h 
| | |-- memlayout.h 
| | |-- mmu.h 
| | |1-- pmm.c 
| | - pmm.h 
| | sync 
| | `“-- Sync.h 
| E trap 
| |-- trap.c 
| |-- trapentry.S 
| |-- trap.h 
| `“-- Vectors,S 
|-- libs 
| |-- atomic.h 
| |-- list.h 
`“-- tools 
|-- kernel.1d 


相对 与 proj4.3，proj5 增 加 了 6 个 文件 。 主 要 修改 和 增加 的 文件 如 下 : 


。 boot/bootasm.S : 增加 了 对 计算 机 系统 中 物理 内 存 布局 的 探测 功能 ; 

e kern/init/entry.S : 根据 临时 段 表 重新 暂时 建立 好 新 的 段 空 间 ， 为 进行 分 页 做 好 准备 。 

。 kern/mm/default_pmm.[ch] : 提供 基本 的 基于 链表 方法 的 物理 内 存 管理 (分 配 单位 为 页 ， 
即 4096 字 节 ) ; 

。 kern/mm/pmm.[ch] : pmm.h 定 义 物理 内 存 管 理 类 框架 struct pmm_manager， 基 于 此 通用 
框架 可 以 实现 不 同 的 物理 内 存 管 理 策略 和 算法 (default_pmm.[ch] 实现 了 一 个 基于 此 框架 
的 简单 物理 内 存 管理 策略 ) ; pmm.c 包 含 了 对 此 物理 内 存 管理 类 框架 的 访问 ， 以 及 与 建 
立 、 修 改 、 访 问 页 表 相 关 的 各 种 函数 实现 。 

。 kern/sync/sync.h : 为 确保 内 存 管理 修改 相关 数据 时 不 被 中 断 打 断 ， 提 供 两 个 功能 ， 一 个 
是 保存 eflag 寄 存 器 中 的 中 断 屏蔽 位 信息 并 屏蔽 中 断 的 功能 ， 另 一 个 是 根据 保存 的 中 断 屏 
蔽 位 信息 来 使 能 中 断 的 功能 ; 

。 libsj/list.h : 定义 了 通用 双向 链表 结构 以 及 相关 的 查找 、 插 入 等 基本 操作 ， 这 是 建立 基于 链 
表 方 法 的 物理 内 存 管 理 (以 及 其 他 内 核 功能 ) 的 基础 。 其 他 有 类 似 双 向 链表 需求 的 内 核 
功能 模块 可 直接 使 用 list.h 中 定义 的 函数 。 

。 libs/atomic.h : 定义 了 对 一 个 变量 进行 读 写 的 原子 操作 ， 确 保 相 关 操 作 不 被 中 断 打 断 。 


e tools/kernel.ld : 修改 了 ucore 的 起 始 入 口 和 代码 段 的 起 始 地 址 


be _ AN- /一 
编译 运行 
编译 并 运行 proj5 的 命令 如 下 : 


make 
make qemu 


则 可 以 得 到 如 下 显示 界面 


chenyu@chenyu-laptop:~/oscourse/ucore-svn/lab2_ memory/proj5$ make qemu 
(THU.CST) os is loading ... 


Special kernel symbols: 
entry QOxc010002c (phys) 
etext QOxc010537f (phys) 
edata 0xco91169b8 (phys) 
end Oxc01178dc (phys ) 
Kernel executable memory footprint: 95KB 
memory managment: default_pmm_manager 
e820map: 
memory: 0009f400， [00000000, QO0009f3ff], type = 
memory: 00000c00， [0009f400，0009ffff]，type = 
memory: 00010000， [000f0000，000fffff]，type = 
memory: Q7efd000, [00100000, QO7ffcfff], type = 
memory: 00003000， [07ffd000, QO7ffffff], type = 
memory: 00040000, [fffco000, ffffffff], type = 
check_alloc page() succeeded! 


DDNDPPANDDPp 


check_pgdir() succeeded! 
check_boot_pgdir() succeeded! 
人 BEGTNG 0 
PDE(0e0) c0000000-f8000000 38000000 urw 
|-- PTE(38000) c0000000-f8000000 38000000 -rw 
PDE(001) fac00000-fb000000 00400000 -rw 
|-- PTE(000e0) faf00000-fafe0000 000e0000 urw 
|-- PTE(00001) fafeb000-fafec000 00001000 -rw 


Doerr ENDS=S— -= 
++ Setup timer interrupts 

100 ticks 

100 ticks 


通过 上 图 ， 我 们 可 以 看 到 ucore 在 显示 其 entry (入 口 地 址 ) 、etext (代码 段 截 止 处 地 址 ) 、 
edata (数据 段 截止 处 地 址 ) 、 和 end (ucore 截 止 处 地 址 ) 的 值 后 ， 探 测 出 计算 机 系统 中 的 物 
理 内 存 的 布局 (e820map 下 的 显示 内 容 ) 。 接 下 来 ucore 会 以 页 为 最 小 分 配 单位 实现 一 个 简单 


的 内 存 分 配 管理 ， 完 成 二 级 页 表 的 建立 ， 进 入 分 页 模式 ， 执 行 各 种 我 们 设置 的 检查 ， 最 后 显 
示 UCOre 建 立 好 的 二 级 页 表 内 容 ， 并 在 分 页 模式 下 响应 时 钟 中 断 。 下 面 我 们 将 分 析 到 底 发 生 了 
什么 事情 。 


【背景 】 探 测 计算 机 系统 中 的 物理 内 存 分 布 和 
大 小 


在 proj5 中 ， 操 作 系 统 需 要 知道 了 解 整 个 计算 机 系统 中 的 物理 内 存 如 何 分 布 的 ， 哪 些 被 可 用 ， 

哪些 不 可 用 。 其 基本 方法 是 通过 BIOS 中 断 调用 来 帮助 完成 的 。 其 中 BIOS 中 断 调用 必须 在 实 模 

式 下 进行 ， 所 以 在 bootloader 进 入 保护 模式 前 完成 这 部 分 工作 相对 比较 合适 。 这 些 部 分 由 

boot/bootasm.S 中 从 probe_memory 处 到 finish_probe 处 的 代码 部 分 完成 完成 。 通 过 BIOS 中 断 

获取 内 存 可 调用 参数 为 e820h 的 INT 15h BIOS 中 断 。BIOS 通 过 系统 内 存 映射 地 址 描述 符 
(Address Range Descriptor) 格式 来 表示 系统 物理 内 存 布 局 ， 其 具体 表示 如 下 : 


offset Size Description 

Ooh 8 字 节 base address # 系 统 内 存 块 基 地 址 
98h 8 字 节 length in bytes # 系 统 内 存 大 小 
10h 4 字 节 type of address range # 内 存 类 型 


看 下 面 的 (Values for System Memory Map address type) Values for System Memory Map 
address type: 


01h memory, available to 0S 


02h reserved, not available (e.g，System ROM, memory-mapped device) 

03h ACPI Reclaim Memory (usable by 0S after reading ACPI tables) 

04h ACPI NVS Memory (OS is required to save this memory between NVS sessions) 
other not defined yet -- treat as Reserved 


INT15h BIOS 中 断 的 详细 调用 参数 : 


eax : e820h : INT 15 的 中 断 调 用 参数 ; 

edx : 534D4150h ( 即 4 个 ASCII 字 符 “SMAP”) ， 这 只 是 一 个 签名 而 已 

ebx : 如 果 是 第 一 次 调用 或 内 存 区 域 扫描 完毕 ， 则 为 9。 如 果 不 是 ， 则 存放 上 次 调用 之 后 的 计数 值 ; 
ecx : 保存 地 址 范围 描述 符 的 内 存 大 小 ,应 该 大 于 等 于 20 字 节 ; 

es:di :指向 保存 地 址 范围 描述 符 结构 的 缓冲 区 ，BIOS 把 信息 写 入 这 个 结构 的 起 始 地 址 。 


此 中 断 的 返回 值 为 : 


cflags 的 CF 位 : 若 INT 15 中 断 执行 成 功 ， 则 不 置 位 ， 否 则 置 位 ; 

eax : 534D415gh ('SMAP') ; 

es:di :指向 保存 地 址 范围 描述 符 的 缓冲 区 ,此 时 缓冲 区 内 的 数据 已 由 BIOS 填 写 完 毕 
ebx : 下 一 个 地 址 范围 描述 符 的 计数 地 址 

ecx : 返回 BIOS 往 ES:DI 处 写 的 地 址 范围 描述 符 的 字 节 大 小 

ah : 失败 时 保存 出 错 代码 


这 样 ， 我 们 通过 调用 INT 15h BIOS 中 断 ， 递 增 di 的 值 (20 的 倍数 ) ， 让 BIOS 帮 我 们 查找 出 一 
个 一 个 的 内 存 布局 entry， 并 放 入 到 一 个 保存 地 址 范围 描述 符 结 构 的 缓冲 区 中 ， 供 后 续 的 ucore 
进一步 进行 物理 内 存 管理 。 这 个 缓冲 区 结构 定义 在 memlayout.h 中 : 


struct e820map { 
int nr_map; 
struct { 
long long addr; 
long long size; 
long type; 
} map[E820MAX]; 
}; 


【实现 】 物 理 内 存 探测 


物理 内 存 探测 是 在 bootasm.S 中 实现 的 ， 相 关 代 码 很 短 ， 如 下 所 示 : 


probe_memory: 
// 对 Qx8000 处 的 32 位 单元 清 零 , 即 给 位 于 0Qx8000 处 的 
//struct e820map 的 结构 域 hr_map 清 零 
movl] $0, QOQx8000 
xorl %ebx, %ebx 
// 表 示 设 置 调用 INT 15h BIOS 中 断后 ，BIOS 返 回 的 映射 地 址 描述 符 的 起 始 地 址 
movw $0x8004, %di 
start_probe: 
movl $0xE820，%eax // INT 15 的 中 断 调用 参数 
// 设 置地 址 范围 描述 符 的 大 小 为 20 字 节 ， 其 大 小 等 于 struct e820map 的 结构 域 map 的 大 小 
mov1 $20, %ecx 
// 设 置 edXx 为 534D4150h ( 即 4 个 ASCII 字 符 “SMAP”)， 这 是 一 个 约定 
movl1 $SMAP, %edx 
// 调 用 int 9x15 中 断 ， 要 求 BIOS 返 回 一 个 用 地 址 范围 描述 符 表示 的 内 存 段 信 息 
int $0x15 
// 如 果 eflags 的 CF 位 为 0， 则 表示 还 有 内 存 段 需 要 探测 
jnc cont 
// 探 测 有 问题 ， 结 束 探测 
movw $12345, Ox8000 
jmp finish_probe 
cont: 
// 设 置 下 一 个 BIOS 返 回 的 映射 地 址 描述 符 的 起 始 地 址 
addw $20, %di 
// 递 增 struct e820map 的 结构 域 nr_map 
incl 0x8000 
// 如 果 INTOX15 返 回 的 ebx 为 零 ， 表 示 探 测 结 束 ， 否 则 继续 探测 
cmpl $0, %ebx 
jnz start_probe 
finish_probe: 


上 述 代码 正常 执行 完毕 后 ， 在 0x8000 地 址 处 保存 了 从 BIOS 中 获得 的 内 存 分 布 信息 ， 此 信息 按 
照 struct e820map 的 设置 来 进行 填充 。 这 部 分 信息 将 在 bootloader 启 动 Ucore 后 ， 由 UCcore 的 
page_init 函 数 来 根据 struct e820map 的 memmap (定义 了 起 始 地 址 为 0x8000) 来 完成 对 整个 
岂 器 中 的 物理 内 存 的 总 体 管理 。 


【原理 】 分 页 内 存 管理 


在 分 页 内 存 管理 中 ， 一 方面 把 实际 物理 内 存 (也 称 主 存 ) 划分 为 许多 个 固定 大 小 的 内 存 块 ， 
称 为 物理 页 面 ， 或 者 是 页 框 (page frame) ; 另 一 方面 又 把 CPU (包括 程序 员 ) 看 到 的 虚拟 
地 址 空间 也 划分 为 大 小 相同 的 块 ， 称 为 虚拟 页 面 ， 或 者 简称 为 页 面 、 页 (page) 。 页 面 的 大 
小 要 求 是 2 的 整数 次 辕 ， 一 般 在 256 个 字 节 到 4M 字 节 之 间 。 在 本 书 中 ， 页 面 的 大 小 设 定 为 
4KB。 在 32 位 的 86x86 中 ， 虚 拟 地 址 空间 是 4GB， 物 理 地 址 空间 也 也 是 4GB， 因 此 在 理论 上 程 
序 可 访问 到 1M 个 虚拟 页 面 和 1M 个 物理 页 面 。 软 件 的 每 一 物理 页 面 都 可 以 放置 在 主 存 中 的 任何 
地 方 ， 分 页 系统 (需要 CPU 等 硬件 系统 提供 相应 的 分 页 机 制 硬件 支持 ， 详 见 下 一 节 ) 提供 了 
程序 中 使 用 的 虚 地 址 和 主 存 中 的 物理 地 址 之 间 的 动态 映射 。 这 样 当 程 序 访问 一 个 虚拟 地 址 
时 ， 支 持 分 页 机 制 的 相关 硬件 自动 把 CPU 访 问 的 虚拟 地 址 虚拟 地 址 拆 分 为 页 号 (可 能 有 多 级 
页 号 ) 和 页 内 偏 移 量 ， 再 把 页 号 映射 为 页 帧 号 ， 最 后 加 上 页 内 偏 移 组 成 一 个 物理 地 址 ， 这 样 
最 终 完 成 对 这 个 地 址 的 读 / 写 /执行 等 操作 。 


假设 程序 在 运行 时 要 去 读 地 址 0x100 的 内 容 到 寄存 器 1 (用 REG1 表 示 ) 中 ， 执 行 如 下 的 指 


令 : 


mov Ox100, REG1 


虚拟 地 址 0x100 被 发 送 给 CPU 内 部 的 内 存 管 理 单元 (MMU) ， 然 后 MMU 通 过 支持 分 页 机 制 的 
相关 硬件 逮 辑 就 会 把 这 个 虚拟 地 址 是 位 于 第 0 个 虚拟 页 面 当 中 ( 设 页 大 小 为 4KB) ， 页 内 偏 移 
是 0x100 ; 而 操作 系统 的 分 页 管理 子 系统 已 经 设置 好 第 0 个 虚拟 页 面 对 应 的 是 第 2 个 物理 页 帧 ， 
物理 页 帧 的 起 始 地 址 是 0x2000， 然 后 再 加 上 页 内 的 偏 移 地 址 0x100， 所 以 最 后 得 到 的 物理 地 
址 就 是 0x2100。 然 后 MMU 就 会 把 这 个 卜 正 的 物理 地 址 发 送 到 计算 机 系统 中 的 地 址 总 线 上 ， 从 
而 可 正确 访问 相应 的 物理 内 存单 元 。 


如 果 操 作 系 统 的 分 页 管理 子 系统 没有 设置 第 0 个 虚拟 页 面 对 应 的 物理 页 帧 ， 则 表示 第 0 个 虚拟 
页 面 当前 没有 对 应 的 物理 页 帧 ， 这 会 导致 CPU 产生 一 个 缺 页 异常 ， 由 操作 系统 的 缺 页 处 理 服 
务 例 程 来 选择 如 何 处 理 。 如 果 缺 页 处 理 服务 例 程 认为 这 是 一 次 非法 访问 ， 它 将 报错 ， 终 止 软 
件 运行 ; 如 果 它 认为 是 一 次 合理 的 访问 ， 则 它 会 采用 分 配 物理 页 等 手段 建立 正确 的 页 映射 ， 
使 得 能 够 重新 正确 执行 产生 异常 的 访 存 指令 。 


【背景 ] X86 的 分 页 硬件 支持 


X86 CPU 对 实际 物理 内 存 的 访问 是 通过 连接 着 CPU 和 北桥 芯片 的 前 端 总 线 来 完成 的 ， 在 前 端 
总 线 上 传输 的 内 存 地 址 是 物理 内 存 地 址 。 物 理 内 存 地 址 被 北桥 映射 到 实际 的 内 存 条 中 的 内 存 
单元 相应 位 置 上 上。 然而， 在 CPU 内 执行 带 来 软件 所 使 用 的 是 虚拟 内 存 地 址 (也 称 逻 辑 内 存 地 
址 ) ， 它 必须 被 转换 成 物理 地 址 后 ， 才 能 用 于 实际 内 存 访 问 。 


前 面 已 经 讲 过 了 80x86 的 分 段 机 制 ，80x86 的 分 页 机 制 建立 在 其 分 段 机 制 基础 之 上 ， 提 供 了 更 
加 强大 的 内 存 管理 支持 。 需 要 注意 的 是 ， 在 X86 中 ， 分 段 机 制 ， 才 能 有 分 页 机 制 。 在 
分 段 机 制 中 ， 虚 地 址 会 转换 为 线性 地 址 。 如 果 不 启 页 机 制 ， 那 么 线性 地 址 就 是 最 终 在 前 
端 总 线 上 的 物理 地 址 ; 如 果 启 动 了 分 a 会 经 过 页 映射 被 转换 为 物理 地 
址 。 
人 
启用 分 页 机 制 ; 如 果 PG=0， 禁 用 分 页 机 制 。 不 像 分 段 机 制 管理 大 小 不 国定 的 内 存 卡 ， 分 页 机 
人 和 个 地 址 空 ee 和 
ne 的 存储 块 组 成 。 在 80x86 中 ， 这 个 固定 大 小 一 般 设 定 为 4096 字 节 。 在 线性 地 

空间 中 的 最 小 管理 单位 ( 称 为 页 (page) ) ， 可 以 映射 到 物理 地 址 空 de 
0 ( 称 为 页 帧 (page frame) ) 。 页 /页 帧 的 32 位 地 址 由 20 位 的 页 号 /页 帧 号 和 12 位 的 
页 /页 帧 内 偏 移 组 成 。 


80x86 分 页 机 制 中 的 分 页 转换 功能 ( 即 线性 地 址 到 物理 地 址 的 映射 功能 ) 需 采 用 驻 留 在 内 存 中 
的 数组 来 描述 ， 该 数组 称 为 页 表 (page table) 。 每 个 数组 项 就 是 一 个 页 表 项 。 由 于 页 /页 帧 

基地 址 按 4096 字 节 对 齐 ， 因 此 页 /页 帧 的 基地 址 的 低 12 位 是 0。 页 地 址 <-> 页 帧 地 址 的 转换 过 程 
以 简单 地 看 做 80x86 对 页 表 的 一 个 查找 过 程 。 页 地 址 (线性 地 址 ) 的 高 20 位 ( 即 页 号 ，or 页 的 
基地 址 ) 构成 这 个 数组 的 索引 值 ， 用 于 选择 对 应 页 帧 的 页 帧 号 ( 即 页 帧 的 基地 址 ) 。 页 地 址 
的 低 12 位 给 出 了 页 内 偏 移 量 ， 加 上 对 应 的 页 帧 基地 址 就 最 终 形成 对 应 的 页 帧 地 址 ( 即 物 理 地 
址 ) 。 


由 于 80x86 的 地 址 空间 可 达到 4GB， 按 页 大 小 (4KB) 划分 为 1M 个 页 。 如 果 用 一 个 页 表 来 描 
述 这 种 映射 ， 那 么 该 也 表 就 要 有 1M 个 表 项 ， 若 每 个 表 项 占用 4 个 字 节 ， 那 么 该 映射 表 就 要 占 
用 4M 字 节 。 考 虑 到 将 来 一 个 进程 就 需要 一 个 地 址 映射 表 ， 若 有 多 个 进程 ， 那 地 址 映射 表 所 占 
的 总 空间 将 非常 巨大 。 为 避免 地 址 映射 表 占 用 过 多 的 内 存 资 源 ，80x86 把 地 址 映射 表 设 定 为 两 
级 。 地 址 映射 表 的 第 一 级 称 为 页 目录 表 ， 存 储 在 一 个 4KB 的 物理 页 中 ， 页 目录 表 共 有 1K 个 表 
项 ， 其 中 每 个 表 项 为 4 字 节 长 ， 页 表 项 中 包含 对 应 第 二 级 表 所 在 的 基地 址 。 地 址 映射 表 的 第 二 
级 称 为 页 表 ， 每 个 页 表 也 安排 在 一 个 4K 字 节 的 页 中 ， 每 张 页 表 中 有 1K 个 表 项 ， 每 个 表 项 为 4 
字 节 长 ， 包 含 对 应 页 帧 的 基地 址 。 由 于 页 目录 表 和 页 表 均 由 1K 个 表 项 组 成 ， 所 以 使 用 10 位 的 
索引 就 能 指定 表 项 ， 即 用 10 位 的 索引 值 乘 以 4 加 基地 址 就 得 到 了 表 项 的 物理 地 址 。 按 上 述 的 地 
址 转换 描述 ， 一 个 页 表 项 只 需 20 位 ， 但 实际 的 页 表 项 是 32 位 ， 那 其 他 的 12 位 有 何 用 途 呢 ? 


在 80x86 中 的 的 页 目录 表 项 结构 定义 如 下 所 示 : 








11~4 位 页 表 地 址 





19~12 位 页 表 地 址 











其 中 低 12 位 的 相应 属性 位 含义 如 下 : 


e。 P 位 : 存在 (Present) 标志 ， 用 于 指明 此 表 项 是 否 有 效 。P=1 表 示 有 效 ; P=0 表 示 无 效 。 
如 果 80x86 访 问 一 个 无 效 的 表 项 ， 则 会 产生 一 个 异常 。 如 果 P=0， 和 那么 除 表 示 表 项 无 效 
外 ， 其 余 位 用 于 其 他 用 途 (比如 swap in/out 中 ， 用 来 保存 已 存储 在 磁盘 上 的 页 面 的 序 
号 ) 。 

e。 R/W : 读 / 写 (Read/Write) 标志 ， 如 果 R/W=1， 表 示 页 的 内 容 可 以 被 读 、 写 或 执行 。 如 
果 R/W=0， 表 示 页 的 内 容 只 读 或 可 执行 。 当 处 理 器 运行 在 特权 级 (级 别 0、1 或 2) 时 ， 则 
R/W 位 不 起 作用 。 

。 U/S : 是 用 户 态 /特权 态 (User/Supervisor) 标志 。 如 果 U/S=1， 那 么 在 用 户 态 和 特权 态 都 
可 以 访问 该 页 。 如 果 U/S=0， 那 么 只 能 在 特权 态 (0、1 或 2) 可 访问 该 页 。 

e。 人 A :是 已 访问 (Accessed) 标志 。 ee， 页 表 项 映射 的 物理 页 时 ， 页 表 项 的 这 个 标 
志 就 会 被 置 为 1。 可 通过 软件 把 该 标志 位 清 零 ， 并 且 操 作 系 统 可 通过 该 标志 来 统计 页 的 使 
用 情况 ， 用 于 页 替换 策略 。 

oo 
标志 就 会 被 置 为 1。 可 通过 软件 把 该 标志 位 清 零 ， 并 且 操 作 系 统 可 通过 该 标志 来 统计 页 的 
修改 情况 ， 用 于 页 替换 策略 。 


下 图 显示 了 由 页 目录 表 和 页 表 构 成 的 二 级 页 表 映 射 架 构 。 


Linear Address 
31 22 21 2 有 


12 4-KByte Page 


10 Page Table 


> | 


a 


上 二 = 二 = 
32* 1024 PDE * 1024 PTE = 220 Pages 


CR3 (PDBR) 


*32 bits aligned onto a 4-KByte boundary. 





图 页 目录 表 和 页 表 构 成 的 二 级 页 表 映 射 架 构 


从 图 中 可 见 ， 控 制 寄 存 器 CR3 的 内 容 是 对 应 页 目录 表 的 物理 基地 址 ; 页 目录 表 可 以 指定 1K 个 
页 表 ， 这 些 页 表 可 以 分 散 存放 在 任意 的 物理 页 中 ， 而 不 需要 连续 存放 ; 每 张 页 表 可 以 指定 1K 
个 任意 物理 地 址 空间 的 页 。 存 储 页 目录 表 和 页 表 的 基地 址 是 按 4KB 对 齐 。 当 采用 上 述 页 表 结 构 
后 ， 基 于 分 页 的 线性 地 址 到 物理 地 址 的 转换 过 程 如 下 图 所 示 : 


首先 ，CPU 把 控制 寄存 器 CR3 的 高 20 位 作为 页 目录 表 所 在 物理 页 的 物理 基地 址 ， 再 把 需要 进 
行 地 址 转换 的 线性 地 址 的 最 高 10 位 ( 即 22~ 31 位 ) 作 为 页 目录 表 的 索引 ， 查 找到 对 应 的 页 目录 表 
项 ， 这 个 表 项 中 所 包含 的 高 20 位 是 对 应 的 页 表 所 在 物理 页 的 物理 基地 址 ; 然后 ， 再 把 线性 地 
址 的 中 间 10 位 ( 即 12~21 位 ) 作 为 页 表 中 的 页 表 项 索引 ， 查 找到 对 应 的 页 表 项 ， 这 个 表 项 所 包含 
的 的 高 20 位 作为 线性 地 址 的 基地 址 ( 即 页 号 ) 对 应 的 物理 地 址 的 基地 址 ( 即 页 帧 号 ) ; 最 
后 ， 把 页 帧 号 作为 32 位 物理 地 址 的 高 20 位 ， 把 线性 地 址 的 低 12 位 不 加 改变 地 作为 32 位 物理 地 
址 的 低 12 位 ， 形 成 最 终 的 物理 地 址 。 


如 果 每 次 访问 内 存单 元 都 要 访问 位 于 内 存 中 的 页 表 ， 则 访 存 开销 太 大 。 为 了 避免 这 类 开销 ， 
X86 CPU 把 最 近 使 用 的 地 址 映射 数据 存储 在 其 内 部 的 页 转换 高 速 缓存 〈 页 转换 查找 缓存 ， 简 
称 TLB) 中 。 这 样 在 访问 存储 器 页 表 之 前 总 是 先 查 阅 高 速 缓存 ， 仅 当 必须 的 转换 不 在 高 速 缓存 
中 时 ， 才 访问 存储 器 中 的 两 级 页 表 。 


【 实现】 实现 分 页 内 存 管 理 


重新 建立 段 映 射 


前 面 已 经 介绍 了 如 何 探测 物理 内 存 ， 接 下 来 Ucore 需 要 根据 物理 内 存 的 情况 来 建立 分 页 管理 机 
制 。 首 先 观察 一 下 tools/kernel.Id 文 件 在 proj4.1 和 proj5 中 的 区 别 ， 在 proj4.1 中 : 


ENTRY(kern_init) 


SECTIONS { 
/* Load the kernel at this address: "." means the current address */ 
, = Ox100000; 
SCX 
*(.text .stub .text.* .gnu.linkonce.t.*) 
} 
在 porj5 中 : 


ENTRY(kern_entry) 
SECTIONS { 
/* Load the kernel at this address: "." means the current address */ 


. = 0XC0100000 ; 


EC Xt 
*(.text .stub .text.* .gnu.linkonce.t.*) 


在 意味 着 gcc 编 译 出 Ucore 的 起 始 地 址 从 0xC0100000 开 始 ， 入 口 函 数 为 kern_entry 部 数 。 这 与 
proj4.1 有 很 大 差别 。 这 实际 上 说 明 ucore 在 建立 好 页 映射 关系 后 ， 虚 拟 地址 空间 和 物理 地 址 空 
间 之 间 存 在 如 下 的 映射 关系 : 


Virtual Address=LinearAddress=0xC0000000+Physical Address 


另外 ，Uucore 的 入 口 地 址 也 改 为 了 kern_entry 有 函数 ， 这 个 函数 位 于 inityentry.S 中 ， 分 析 代 码 可 以 
看 出 ，entry.S 重 新 建立 了 段 映 射 关 系 ， 从 以 前 的 


Virtual Address= Linear Address 


改 为 


Virtual Address=Linear Address-0xC0000000 


由 于 gcc 编 译 出 的 虚拟 起 始 地 址 从 0xC0100000 开 始 ，Ucore 被 bootloader 放 置 在 从 物理 地 址 
0x100000 处 开始 的 物理 内 存 中 。 所 以 当 kern_entry 驾 数 完成 新 的 段 映 射 关系 后 ， 且 Ucore 在 没 
有 建立 好 页 映射 机 制 前 ，CPU 按 照 ucore 中 的 虚拟 地 址 执行 ， 能 够 被 分 段 机 制 映射 到 正确 的 物 
理 地 址 上 ， 确 保 ucore 运 行 正 确 。 


初始 化 物理 内 存 页 分 配 管理 


为 了 与 以 后 的 分 页 机 制 配合 ， 我 们 首先 需要 建立 对 整个 计算 机 的 页 级 物理 内 存 分 配 管理 。 这 
部 分 代码 的 实现 在 kern/default pmm.[ch]。 首 先 我 们 需要 用 一 个 数据 结构 来 描述 每 个 物理 页 

(也 称 页 帧 ) ， 这 里 用 了 双向 链表 结构 来 表示 每 个 页 。 链 表 头 用 free_area_t 结 构 来 表示 ， 包 
含 了 一 个 list_entry 结 构 的 双向 链表 指针 和 记录 当前 空闲 页 的 个 数 的 无 符号 整 型 变量 nr _ free。 


/* free area t - maintains a doubly linked list to record free (unused) pages */ 
typedef struct { 

list_entry_t free_list,; // the list header 

unsigned int nr_free; // # of free pages in this free list 





} free area t; 


每 一 个 物理 页 的 属性 用 结构 Page 来 表示 ， 它 包含 了 映射 此 物理 页 的 虚拟 页 个 数 ， 描 述 物 理 页 
属性 的 flags 和 双向 链接 各 个 Page 结 构 的 page_link 双 向 链表 。 


Struct Page { 
atomic_t ref; // page frame's reference counter 
uint32_t flags; // array of flags that describe the status of the page frame 
list_entry_t page_link; // free list link 





}; 


有 了 这 两 个 数据 结构 ，ucore 就 可 以 管理 起 来 整个 以 页 为 单位 的 物理 内 存 空间 。 接 下 来 需要 解 
决 两 个 问题 : 

。 管理 页 级 物理 内 存 空间 所 需 的 Page 结 构 的 内 存 空间 从 哪里 开始 ， 占 多 大 空间 ? 

。 空闲 内 存 空间 的 起 始 地 址 在 哪里 ? 

对 于 这 两 个 问题 ， 我 们 首先 根据 bootloader 给 出 的 内 存 布 局 信息 找 出 最 大 的 物理 内 存 地 址 
maxpa (定义 在 page_init 函 数 中 的 局 部 变量 ) ， 由 于 X86 的 起 始 物理 内 存 地 址 为 0， 所 以 可 以 
得 知 需要 管理 的 物理 页 个 数 为 


npage = maxpa / PGSIZE 


这 样 ， 我 们 就 可 以 预 估 出 管理 页 级 物理 内 存 空间 所 需 的 Page 结 构 的 内 存 空间 所 需 的 内 存 大 小 
为 : 


sizeof(struct Page) * npage) 


由 于 bootloader 加 载 Ucore 的 结束 地 址 (用 全 局 指针 变量 end 记 录 ) 以 上 的 空间 没有 被 使 用 ， 所 
以 我 们 可 以 把 end 按 页 大 小 为 边界 去 整 后 ， 作 为 管理 页 级 物理 内 存 空 间 所 需 的 Page 结 构 的 内 
存 空间 ， 记 为 : 


pages = (Struct Page *)ROUNDUP( (void *)end, PGSIZE); 


为 了 简化 起 见 ， 从 地 址 0 到 地 址 pages+ sizeof(struct Page) npage) 结 束 的 物理 内 存 空 间 设 定 为 
已 占用 物理 内 存 空 间 (起 始 0~640KB 的 空间 是 空闲 的 ) ， 地 址 pages+ sizeof(struct Page) 
npage) 以 上 的 空间 为 空闲 物理 内 存 空 间 ， 这 时 的 空闲 空间 起 始 地 址 为 


uintptr_t freemem = PADDR((uintptr _t)pages + sizeof(struct Page) * npage); 


为 此 我 们 需要 把 这 两 部 分 空间 给 标识 出 来 。 对 于 已 占用 物理 空间 ， 通 过 如 下 语句 即 可 实现 占 
用 标记 : 


for (i = 0; i < npage; i ++) { 
SetPageReserved(pages + 工 ) ; 


} 


对 于 空闲 物理 空间 ， 通 过 如 下 语句 即 可 实现 空闲 标记 : 


// 获 得 空闲 空间 的 起 始 地 址 begin 和 结束 地 址 end 


init_memmap(pa2page(begin), (end - begin) / PGSIZE); 


其 实 SetPageReserved 只 需 把 物理 地 址 对 应 的 Page 结 构 中 的 flags 标 志 设 置 为 PG_reserved ， 
表示 这 些 页 已 经 被 使 用 了 。 而 init memmap 远 数 则 是 把 空 闪 物理 页 对 应 的 Page 结 构 中 的 flags 
和 引用 计数 ref 清 零 ， 并 加 到 free_area.free_list 指 向 的 双向 列表 中 ， 为 将 来 的 空闲 页 管理 做 好 
初始 化 准备 工作 。 


物理 内 存 页 分 配 与 释放 


关于 内 存 分 配 的 操作 系统 原理 方面 的 知识 有 很 多 ， 但 在 proj5 中 只 实现 了 最 简单 的 内 存 页 分 
算法 ， 即 每 次 只 分 配 一 页 或 释放 一 页 的 内 存 页 分 配 和 工法。 相应 的 实现 在 default_pmm.c 中 
default_alloc_pages 有 函数 和 default free_pages 函 数 ， 相 关 实 现 很 简单 ， 这 里 就 不 具体 分 析 


了 ， 直 接 看 源码 ， 应 该 很 好 理解 。 
其 实 proj5 在 内 存 分 配 和 释放 方面 最 主要 的 作用 是 建立 了 一 个 物理 内 存 页 管理 器 框架 ， 这 实际 
上 是 一 个 函数 指针 列表 ， 定 义 如 下 : 


Struct pmm_manager { 
const char *name; // 物 理 内 存 页 管理 器 的 名 字 
void (*init)(void); // 初 始 化 内 存 管理 器 
void (*init_memmap)(struct Page *base，size_t n); // 初 始 化 管理 空闲 内 存 页 的 数据 结构 
struct Page *(*alloc_pages)(size_t n); // 分 配 n 个 物理 内 存 页 
void (*free_pages)(struct Page *base，size _t n); // 释 放 n 个 物理 内 存 页 
size_t (*nr_free_pages)(void); // 返 回 当前 剩余 的 空闲 页 数 
void (*check)(void); // 用 于 检测 分 配 / 释 放 实 现 是 否 正确 的 辅助 函数 
}; 


重点 是 实现 init_ memmap/ alloc_pages/ free_pages 这 三 个 函数 。 当 完成 物理 内 存 页 管理 初始 
化 工作 后 ， 计 算 机 系统 的 内 存 布局 如 下 图 所 示 : 
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< 一 实际 物理 内 存 空间 
结束 地 址 


fx00100000 (1 
Is000F0000 (960KB) 
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0x000B8000 


0x00011000 ( 振 刀 ) 


x00010000 
< 一 其 于 bootloader 太 小 


0x00007G0 ( 栈 项 ) 


基于 对 堆栈 的 使 用 情况 
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读者 可 进一步 通过 分 析 proj5.1/5.1.1/5.1.2/5.2 中 firstfit pmm[ch]/bestfit pmm[ch]/ 
worstfit_pmm[ch]/ buddy_pmm[ch] 文 件 中 对 应 函数 实现 来 体会 原理 课 中 的 连续 空间 内 存 分 配 
中 各 种 分 配 算法 的 设计 思路 和 实现 。 


建立 二 级 页 表 


为 了 实现 分 页 机 制 ， 需 要 建立 好 虚拟 内 存 和 物理 内 存 的 页 映射 关系 ， 即 建立 二 级 页 表 。 这 需 
要 解决 如 下 问题 : 


e。 对 于 哪些 物理 内 存 空 ee 
。 具体 的 页 映射 关系 是 什么 

e@ 页 目录 表 的 起 始 地 址 设置 在 哪里 ? 

e。 页 表 的 起 始 地 址 设置 在 哪里 ， 需 要 多 大 空间 ? 
e。 如 何 设置 页 目录 表 项 的 内 容 ? 

e。 如 何 设置 页 目录 表 项 的 内 容 ? 


下 面 我 们 逐一 解决 上 述 问 题 。 由 于 物理 内 存 页 管理 器 管理 了 从 0 到 实际 可 用 物理 内 存 大 小 的 物 
理 内 存 空 间 ， 所 以 对 于 这 些 物理 内 存 空 Bee 映射 关系 。 由 于 目前 ucore 只 运行 在 
内 核 空间 ， 所 以 可 以 建立 一 个 一 一 映射 关系 。 假 定 虚 拟 内 核 地 址 的 起 始 地 址 为 0xXC0000000， 
这 虚拟 内 存 和 物理 内 存 的 具体 页 映射 关系 为 : 


Virtual Address=Physical Address+0xC0000000 


由 于 我 们 已 经 具有 了 网 管理 器 default pmm_manager， 以 用 它 来 获得 
所 需 的 空闲 物理 页 。 在 二 级 页 表 结 构 中 ， 页 目录 表 占 4KB 空 间 ，ucore 就 可 通 
| 物理 页 ， 这 个 页 的 起 始 物理 
地 址 就 是 页 目录 表 的 起 始 地 址 。 同 理 ，Ucore 也 通过 这 种 方式 获得 各 个 页 表 所 需 的 空间 。 页 表 
的 空间 大 小 取决 与 页 表 要 管理 的 物理 页 数 n， 一 个 页 表 项 (32 位 ， 即 4 字 节 ) 可 管理 一 个 物理 
页 ， 页 表 需 要 占 n/256 个 物理 页 空间 。 这 样 页 目录 表 和 页 表 所 占 的 总 大 小 为 4096+1024*n 字 


Es 


了 O 


为 把 0~KERNSIZE (明确 ucore 设 定 实际 物理 内 存 不 能 超过 KERNSIZE 值 ， 即 0x38000000 字 
节 ，896MB，3670016 个 物理 页 ) 的 物理 地 址 一 一 映射 到 页 目录 表 项 和 页 表 项 的 内 容 ， 其 大 
致 流程 如 下 : 


. 先 通过 default_pmm_manager 获 得 一 个 空闲 物理 页 ， 用 于 页 目录 表 ; 
2. 调用 boot map_segment 函 数 建立 一 一 映射 关系 ， 具 体 处 理 过 程 以 页 为 单位 进行 设置 ， 即 


Virtual Address=Physical Address+0xC0000000 


o 设 一 个 逻辑 地 址 la ( 按 页 对 齐 ， 故 低 12 位 为 堆 ) 对 应 的 物理 地 址 pa ( 按 页 对 齐 ， 故 
低 12 位 为 零 ) ， 如 果 在 页 目录 表 项 〈la 的 高 10 位 为 索引 值 ) 中 的 存在 位 (PTE_P ) 
为 0， 表 示 缺 少 对 应 的 页 表 空 间 ， 则 可 通过 default pmm_manager 获 得 一 个 空闲 物理 
页 给 页 表 ， 页 表 起 始 物理 地 址 是 按 4096 字 节 对 齐 的 ， 这 样 填写 页 目录 表 项 的 内 容 为 


页 目录 表 项 内 容 = 页 表 起 始 物理 地 址 | PTE_U| PTE_W |PTE_P 


o 进一步 对 于 页 表 中 对 应 页 表 项 (la 的 中 10 位 为 索引 值 ) 的 内 容 为 


页 表 项 内 容 = pa | PTE_P | PTE_W 


其 中 : 


国 PTE_U : 位 3 » 表示 用 户 态 的 软件 可 以 读 取 对 应 地 址 的 物理 内 存 页 内 容 
@_ PTE_W : 位 2， 表 示 物 理 内 存 页 内 容 可 写 


建立 好 一 一 映射 的 二 级 页 表 结 构 后 ， 接 下 来 就 要 使 能 分 页 机 制 了 ， 这 主要 是 通过 
enable_paging 有 也 数 实现 的 ， 这 个 函数 主要 做 了 两 件 事 : 


过 lcr3 指 令 把 页 目录 表 的 起 始 地 址 存 入 CR3 寄 存 器 中 ; 


通 
e 通过 |cr0 指 令 把 cr0 中 的 CR0_PG 标 志 位 设置 上 。 
执行 完 enable_paging 部 数 后 ， 计 算 机 系统 进入 了 分 页 模式 ! 但 到 这 一 步 还 不 够 ， 还 记得 
ucore 在 最 开始 通过 kern_entry 元 数 设 置 了 临时 的 新 段 映射 机 制 吗 ? 这 个 临时 的 新 段 映射 机 制 
不 是 最 简单 的 对 等 映射 ， 导 致 虚拟 地 址 和 线性 地 址 不 相等 。 而 刚才 建立 的 页 映射 关系 是 建立 
在 简单 的 段 对 等 映射 ， 即 虚拟 地 址 = 线性 地 址 的 假设 基础 之 上 的 。 所 以 我 们 需要 进一步 调整 段 


映射 关系 ， 即 重新 设置 新 的 GDT， 建 立 对 等 段 映 射 。 


这 里 需要 注意 : 在 进入 分 页 模式 到 重新 设置 新 GDT 的 过 程 是 一 个 过 渡 过 程 。 在 这 个 过 渡 过 程 
中 ， 已 经 建立 了 页 表 机 制 ， 所 以 通过 现在 的 段 机 制 和 页 机 制 实现 的 地 址 映射 关系 为 : 


Virtual Address=Linear Address + 0xC0000000 = Physical Address +0xC0000000+0XxC0000000 


在 这 个 特殊 的 阶段 ， 如 果 不 把 段 映射 关系 改 为 Virtual Address = Linear Address， 则 通过 段 页 
式 两 次 地 址 转换 后 ， 无 法 得 到 正确 的 物理 地 址 。 为 此 我 们 需要 进一步 调用 gdt_init 骂 数 ， 根 据 
新 的 gdt 全 局 段 描述 符 表 内 容 (gdt 定 义 位 于 pmm.c 中 ) ， 恢 复 以 前 的 段 映射 关系 ， 即 使 得 
Virtual Address = Linear Address。 这 样 在 执行 完 gdt_init 后 ， 通 过 的 段 机 制 和 页 机 制 实现 的 地 
址 映射 关系 为 : 


Virtual Address=Linear Address = Physical Address +0XxC0000000 


这 里 存在 的 一 个 问题 是 ， 在 调用 enable page 函数 使 能 分 页 机 制 后 到 执行 完毕 gdt_init 函 数 重 
新 建立 好 段 页 式 映射 机 制 的 过 程 中 ， 内 核 使 用 的 还 是 昌 的 段 表 映射 ， 也 就 是 说 ，enable 
paging 之 后 ， 内 核 使 用 的 是 页 表 的 低地 址 entry。 如 何 保证 此 时 内 核 依 然 能 够 正常 工作 呢 ? 
其 实 只 需 让 低地 址 目录 表 项 的 内 容 等 于 以 KERNBASE 开 始 的 高 地 址 目录 表 项 的 内 容 即 可 。 目 
前 内 核 大 小 不 超过 4M (实际 上 是 3M， 因 为 内 核 从 0x100000 开始 编 址 ) ， 这 样 就 只 需要 让 
页 表 在 0~4MB 的 线性 地 址 与 KERNBASE ~ KERNBASE+4MB 的 线性 地 址 获得 相同 的 映射 即 
可 ， 都 映射 到 0~4MB 的 物理 地 址 空间 ， 有 具体 实现 在 pmm.c 中 pmm_init 函 数 的 语句 : 


boot_pgdir[9] = boot_pgdir[PDX(KERNBASE)] ; 


实际 上 这 种 映射 也 限制 了 内 核 的 大 小 。 当 内 核 大 小 超过 预期 的 3MB 就 可 能 导致 打开 分 页 之 
内 核 crash， 在 后 面 的 试验 中 ， 也 的 确 出 现 了 这 种 情况 。 解 决 方法 同样 简单 ， en 
高 地 址 项 到 低地 址 。 


当 执 行 完毕 gdt_init 吉 数 后 ， 新 的 段 页 式 映射 已 经 建立 好 了 ， 上 面 的 0~4MB 的 线性 地 址 与 
0~4MB 的 物理 地 址 一 一 映射 关系 已 经 没有 用 了 。 所 以 可 以 通过 如 下 语句 解除 这 个 老 的 映射 关 
系 。 


boot_pgdir[0] = 9; 


日 映射 机 制 


上 一 小 节 讲 述 了 通过 boot map_segment 函 数 建立 了 基于 一 一 映射 关系 的 页 目录 表 项 和 页 表 
项 ， 这 里 的 映射 关系 为 : 


Virtual addr (KERNBASE~KERNBASE+KMEMSIZE) = Physical_addr (9~KMEMSIZE) 


这 样 只 要 给 出 一 个 虚 地 址 和 一 个 物理 地 址 ， 就 可 以 设置 相应 PDE 和 PTE， 就 可 完成 正确 的 映 
射 关 系 。 


如 果 我 们 这 时 需要 按 虚 拟 地 址 的 地 址 顺序 显示 整个 页 目录 表 和 页 表 的 内 容 ， 则 要 查找 页 目录 
表 的 页 目录 表 项 内 容 ， 根 据 页 目录 表 项 内 容 找 到 页 表 的 物理 地 址 ， 再 转换 成 对 应 的 虚 地 址 ， 
然后 访问 页 表 的 庶 地 址 ， ee 这 样 过 程 比 较 繁 珊 。 我 们 有 没有 一 
个 简洁 的 方法 来 实现 这 个 查找 呢 ?Ucore 做 了 一 个 很 巧妙 的 地 址 自 映射 设计 ， 把 页 目录 表 和 页 

表 放 在 一 个 连续 ee 间 中 ， 并 设置 页 目录 表 自 身 的 庶 地 址 <--> 物 理 地 址 映射 关 
系 。 这 样 在 已 知 页 目录 表 起 始 虚 地 址 的 情况 下 ， 通 过 连续 扫描 这 特定 的 4MB 虚 拟 地 址 空间 ， 
就 很 容易 访问 每 个 页 目录 表 项 和 页 表 项 内 容 。 


具体 而 言 ，ucore 是 这 样 设 计 的 ， 首 先 设 置 了 一 个 常量 (memlayout.h ) 


VPT=0XxFAC00000 ， 


这 个 地 址 的 二 进 制 表示 为 : 


1111 1010 1100 0000 0000 0000 0000 0000 


高 10 位 为 1111 1010 11， 即 10 进 制 的 1003， 中 间 10 位 为 0， 低 12 位 也 为 0。 在 pmm.c 中 有 两 个 
全 局 初始 化 变量 


pte_t * const vpt = (pte_t *)VPT; 
pde_t * const vpd = (pde_t *)PGADDR(PDX(VPT), PDX(VPT), 0); 


NaN. 并 在 pmm_init 函 数 执行 了 如 下 语句 : 


boot_pgdir[PDX(VPT)] = PADDR(boot_pgdir) | PTE_P | PTE_W; 


这 些 变量 和 语句 有 何 特殊 含义 呢 ? 其 实 vpd 变 量 的 值 就 是 页 目录 表 的 起 始 虚 地 址 
0xFAFEB000， 且 它 的 高 10 位 和 中 10 位 是 相等 的 ， 都 是 10 进 制 的 1003。 当 执行 了 上 述 语 钉 ， 
就 确保 了 vpd 变 量 的 值 就 是 页 目录 表 的 起 始 庶 地 址 ， 且 vpt 是 页 目录 表 中 第 一 个 目录 表 项 指向 
的 页 表 的 起 始 虚 地 址 。 此 时 描述 内 核 虚 拟 空间 的 页 目录 表 的 虚 地 址 为 0xXFAFEB000， 大 小 为 
4KB。 页 表 的 理论 连续 虚拟 地 址 空间 0xFAC00000~0xFB000000， 大 小 为 4MB。 因 为 这 个 连 
续 地 址 空间 的 大 小 为 4MB， 可 有 1M 个 PTE， 即 可 映射 4GB 的 地 址 空间 。 


号 


但 ucore 实 际 上 不 会 用 完 这 么 多 项 ， 在 memlayout.h 中 定义 了 常量 


#define KMEMSIZE Ox38000000 


表示 Ucore 只 支持 896MB 的 物理 内 存 空间 ， 这 个 896MB 只 是 一 个 设 定 ， 可 以 根据 情况 改变 。 则 
最 大 的 内 核 庶 地 址 为 常量 


\#define KERNTOP (KERNBASE + KMEMSIZE )=0XxF8000000 


所 以 最 大 内 核 虚 地 址 KERNTOP 的 页 目录 项 虚 地 址 为 


vpd+0xF8000000/0x400000=0xFAFEBO00+0x3E0=0xFAFEB3E0 


最 大 内 核 虚 地 址 KERNTOP 的 页 表 项 虚 地 址 为 : 
vpt+0xF8000000/0x1000=0xFAC00000+0xF8000=0xFACF8000 


在 pmm.c 中 的 函数 print _pgdir 就 是 基于 ucore 的 页 表 自 映射 方式 完成 了 对 整个 页 目录 表 和 页 表 
的 内 容 扫 描 和 打印 。 注 意 ， 这 里 不 会 出 现 某 个 页 表 的 庶 地 址 与 页 目录 表 虚 地 址 相同 的 情况 。 


自 映射 机 制 还 可 方便 用 户 态 程序 访问 页 表 。 因 为 页 表 是 内 核 维护 的 ， 用 户 程 序 很 难 知道 自己 

页 表 的 映射 结构 。VPT 实际 上 在 内 核 地 址 空间 的 ， 我 们 可 以 用 同样 的 方式 实现 一 个 用 户 地 址 
空间 的 映射 (比如 pgdir[UVPT] = PADDR(pgdir) | PTE_P | PTE_U， 注 意 ， 这 里 不 能 给 写 权 
限 ， 并 且 pgdir 是 每 个 进程 的 page table， 不 是 boot pgdir) ， 这 样 ， 用 户 程序 就 可 以 用 和 内 
核 一 样 的 print_pgdir 函数 遍历 自己 的 页 表 结构 了 。 


在 page_init 函 数 建立 完 实 现 物理 内 存 一 一 映射 和 页 目录 表 自 映射 的 页 目录 表 和 页 表 后 ， 一 旦 
使 能 分 页 机 制 ， 则 ucore 看 到 的 内 核 庶 拟 地 址 空间 如 下 图 所 示 : 


Virtual memory map : Permissions 
kernel/user 








+--------------------------------- + OxFBO00000 

Cur. Page Table (Kern, RW) RW/-- PTSIZE 
VPT ----------------- > +--------------------------------- + OxFACQ0000 

Invalid Memory (*) “f= 
KERNTOP ------------- > +--------------------------------- + 9xF8900000 
| | 

Remapped Physical Memory RW/-- KMEMSIZE 

KERNBASE ------------ > +---- + OxCQO00000 








proj5 使 能 分 页 机 制 后 的 虚拟 地 址 空间 图 


【原理 】 页 内 存 分 配 算法 


ee 分 配 内 存 时 ， 存 在 很 多 限制 ， 效 率 很 低 。 在 操作 系统 原理 中 ， 为 了 有 效 

分 配 内 存 ， 首 先 需 要 了 解 和 跟踪 空 用 内存 和 分 布 情况 ， 一 般 可 采用 位 图 (bit map) 和 双向 
0 内 存 使 用 情况 。 若 采用 位 图 方式 ， 则 每 个 页 对 应 位 图 区 域 的 一 个 bit， 如 果 
此 位 为 0， 表 示 空 闲 ， 如 果 为 1， 表 示 被 占用 。 采 用 位 图 方式 很 省 空间 ， 但 查找 n 个 长 度 为 0 的 
位 串 的 开销 比较 大 。 而 双向 链表 在 查询 或 修改 操作 方面 灵活 性 和 效率 较 高 ， 所 以 ucore 采 用 双 
向 链表 来 跟踪 跟踪 内 存 使 用 情况 。 


2 和 个 物理 内 存 空间 空间 的 以 页 为 单位 被 一 个 双向 链表 管理 起 来 ， 每 个 表 项 管理 一 个 物理 

这 需要 设计 某 种 算法 来 查找 空闲 页 和 回收 空闲 页 。ucore 实 现 了 首次 适 配 We 算 
最 佳 适 配 (bestfit) 算法 、 最 差 适 配 (worst fit) 算法 和 兄弟 (buddy) 算法 ， 这 些 算法 
都 可 以 实现 在 ucore 提 供 的 物理 内 存 页 管理 器 框架 pmm_manager 下 。 


首次 适 配 (first fit) 算法 的 分 配 内 存 的 设计 思路 是 物理 内 存 页 管理 器 顺 着 双向 链表 进行 搜索 空 
闲 内 存 区 域 ， 直 到 找到 一 个 足够 大 的 空闲 区 域 ， 这 是 一 种 速度 很 快 的 算法 ， 因 为 它 尽 可 能 少 
地 搜索 链表 。 如 果 空 闲 区 域 的 大 小 和 申请 分 配 的 大 小 正好 一 样 ， 则 把 这 个 空闲 区 域 分 配 出 
去 ， 成 功 返 回 ; 否则 将 该 空闲 区 分 为 两 部 分 ， 一 部 分 区 域 与 申请 分 配 的 大 小 相等 ， 把 它 分 配 
出 去 ， 剩 下 的 一 部 分 区 域 形 成 新 的 空闲 区 。 其 释放 内 存 的 设计 思路 很 简单 ， 只 需 把 这 块 区 域 
重新 放 回 双向 链表 中 即 可 。 


最 佳 适 配 (best fit) 算法 的 设计 思路 是 物理 内 存 页 管理 器 搜索 整个 双向 链表 (从 开始 到 结 
束 ) ， 找 出 能 够 满足 申请 分 配 的 空间 大 小 的 最 小 空 ee 区 域 。 找 到 这 个 区 域 后 的 处 理 以 及 释放 
内 存 的 处 理 与 上 面 类 似 。 最 佳 适 配 算法 试图 找 出 最 接近 实际 需要 的 空闲 区 ， 名 字 上 听 起 来 很 
好 ， 其 实在 查询 速度 上 较 慢 ， 且 较 易 产生 多 的 内 存 碎片 。 


最 差 适 配 (worst ft) 算法 与 最 佳 适 配 (bestfit) 算法 的 设计 思路 相反 ， 物 理 内 存 页 管理 器 搜 
索 整 个 双向 链表 ， 找 出 能 够 满足 申请 分 配 的 空间 大 小 的 最 大 空闲 区 域 ， 使 新 的 空闲 区 比较 大 
从 而 可 以 继续 使 用 。 在 实际 效果 上 ， 查 询 速度 上 也 较 慢 ， 产 生 内 存 碎 片 相 对 少 些 。 


上 述 三 种 莫 法 在 实际 应 用 中 都 会 产生 碎片 较 多 ， 效 率 不 高 的 问题 。 为 此 一 般 操 作 系 统 会 采用 
buddy 并 法 来 改进 上 述 问题 。buddy 算 法 的 基本 设计 思想 是 : 在 buddy 系 统 中 ， 被 占用 的 内 存 

空间 和 空闲 内 存 空间 的 大 小 均 为 2 的 k 次 圭 (k 是 正 整 数 ) 。 这 样 在 ucore 中 ， 若 申请 n 个 页 的 内 
存 空间 ， 则 人 间 大 小 为 2K 个 页 〈2k-T<n<=2k) 。 若 初始 化 时 的 空闲 内 存 空间 
容量 为 2m 个 页 ， 这 空闲 块 的 大 小 只 可 能 是 20、21、...、2m 个 页 。 





假定 内 存 一 开始 是 一 个 连续 地 址 空间 (大 小 为 2^k 个 页 ) 的 大 空闲 块 ， 且 最 小 分 配 单位 为 1 个 
页 (4KB) ， 则 buddy system 初 始 化 时 将 生成 一 个 长 度 为 k + 1 的 可 用 空间 表 List, 并 将 全 部 可 
用 空间 作为 一 个 大 小 为 2^K 个 页 的 空闲 块 Bk 挂 接 在 空闲 块 数组 链表 List 的 最 后 一 个 节点 上 , 如 下 





当 ucore 其 他 子 系统 申请 n 个 字 节 的 存储 空间 时 , buddy system 分 配 的 空闲 块 大 小 为 2^ m 个 页 ， 

m 满 足 条 件 : 2^ (m-1) <n <= 2^ m 

此 时 buddy system 将 在 list 中 的 m 位 置 寻找 可 用 的 空闲 块 。 初 始 化 时 List 中 这 个 位 置 为 空 ,于 是 
buddy system 就 向 上 查找 m+1，...， 直 到 达到 k 位 置 为 止 . 找到 k 位 置 后 , 便 得 到 可 用 空闲 块 Bk， 
此 时 Bk 将 分 裂 成 两 个 大 小 为 2^(k- 们 的 空闲 块 Bk-1a 和 Bk-1b, 并 将 其 中 一 个 插入 到 List 中 k-1 位 
置 , 同时 对 另外 一 个 继续 进行 分 裂 . 如 此 以 往 直到 得 到 两 个 大 小 为 2^m 个 页 的 块 为 止 ,并 把 其 中 
一 个 空闲 块 分 配给 需求 方 。 此 时 的 内 存 如 下 图 所 示 : 


如 果 buddy system 在 运行 一 段 时 间 之 后 , List 中 某 个 位 置 t 可 能 会 出 现 多 个 块 , 则 将 其 他 块 依次 
链接 可 用 块 链表 的 末尾 。 当 buddy system 要 在 t 位 置 取 可 用 块 时 , 直接 从 链表 头 取 一 个 即 可 。 


当 一 个 存储 块 被 释放 时 , buddy system 将 把 此 内 存 块 回收 到 空闲 块 链表 List 中 。 此 时 buddy 
system 系 统 将 根据 此 存储 块 的 大 小 计算 出 其 在 List 中 的 位 置 , 然后 插入 到 空闲 块 链 表 的 末尾 。 
在 这 一 步 完成 后 , 系统 立即 开始 合并 尝试 操作 ， 该 操作 是 将 地 址 相 邻 且 大 小 相等 的 空闲 块 ( 简 
称 buddy， 即 "伙伴 "空闲 块 ) 合并 到 一 起 , 形成 一 个 更 大 的 空闲 块 ， 并 重新 放 到 空闲 块 链表 List 
的 对 应 位 置 中 , 并 继续 对 更 大 的 块 进行 合并 , 直到 无 法 合并 为 止 。 


严 乔 敏 老师 的 “数据 结构 "一 书 第 8 章 第 4 节 对 buddy 算 法 有 详尽 的 解释 ，“understanding linux 
kernel" 此 书 对 此 也 有 很 好 的 描述 ， 读 者 可 以 进一步 参考 。 

对 于 上 述 4 个 内 存 分 配 算法 ， 可 参考 对 应 的 proj5.1/5.1.1/5.1.2/5.2 中 的 kern/mm/*_pmm.[ch] 的 
具体 实现 来 进一步 了 解 。 


(可 以 进一步 描述 三 种 算法 的 具体 实现 ) 


试验 目标 


上 一 节 描 述 了 如 何 进 行 页 级 内 存 的 分 配 与 释放 管理 ， 可 以 比较 有 效 地 完成 以 页 大 小 为 最 小 单 
位 (粒度 ) 的 内 存 分 配 和 回收 工作 ， 这 样 可 以 很 好 地 与 分 页 机 制 配合 在 一 起 提供 有 效 的 分 页 
管理 。 但 在 操作 系统 的 实际 运行 过 程 中 ， 还 有 很 多 对 小 于 一 页 的 任意 大 小 内 存 的 动态 申请 需 
求 ， 则 以 页 为 最 小 单位 就 无 法 适应 这 类 需求 了 。 当 然 ， 我 们 可 以 直接 把 物理 内 存 页 管理 器 改 
为 粒度 为 1 字 节 的 物理 内 存 管理 器 ， 这 主要 存在 两 个 问题 : 


e 由 于 页 目录 表 和 页 表 的 大 小 是 4KB， 且 一 个 页 表 项 管理 的 内 存 空间 大 小 也 是 4KB， 故 需要 
扩展 新 的 函数 和 结构 匹配 对 页 表 的 管理 支持 ， 导 致 代码 复杂 ; 

e 即使 采用 上 述 4 种 内 存 分 配 算法 ， 在 支持 任意 大 小 的 内 存 分 配 请 求 上 ， 依 然 存 在 效率 不 
高 ， 有 和 外 碎片 和 内 碎片 等 问题 。 


所 以 ， 一 个 更 加 合理 的 办 法 是 在 物理 内 存 页 管理 器 的 基础 之 上 建立 一 个 支持 任意 大 小 的 内 存 
分 配 管理 器 ， 形 成 二 级 内 存 管理 ， 满 足 高 效 支持 任意 大 小 的 内 存 分 配 请 求 。 这 就 对 动态 内 存 
分 配 管理 提出 了 新 的 挑战 ， 即 花 尽 量 少 的 时 间 完 成 对 内 存 的 分 配 和 回收 ， 且 保证 能 够 产生 的 
内 外 碎片 尽量 小 。 


proj6 中 参考 Jeff Bonwick 为 Sun OS 操作 系统 首次 引入 的 一 种 算法 : slab 算 法 。slab 算 法 的 基 
本 思路 有 两 个 ， 一 个 是 通过 缓存 实现 “对 象 " 重 用 ， 另 一 个 是 在 一 个 连续 页 空间 放 同 样 类 型 
的 “对 象 "。 


Jeff Bonwick 在 SUN OS 内 核 中 观察 到 内 核 在 运行 时 会 为 有 限 的 对 象 集 (内 核 中 各 种 常见 的 数 
据 结构 ) 分 配 大 量 内 存 ， 且 对 内 核 中 这 些 数据 结构 进行 初始 化 所 需 的 时 间 超 过 了 对 其 进行 分 
配 和 释放 所 需 的 时 间 。 因 此 他 的 结论 是 不 应 该 将 内 存 释 放 回 一 个 全 局 的 空闲 内 存 池 ， 而 是 将 
内 存 保持 为 针对 特定 目 而 初始 化 的 状态 。 例 如 ， 如 果 内 存 被 分 配给 了 一 个 变量 ， 那 么 只 需 在 
为 此 变量 首次 分 配 内 存 时 执行 一 次 变量 初始 化 函数 即 可 ， 当 该 变量 被 回收 并 进一步 被 后 续 

配 时 就 不 需要 执行 这 个 初始 化 函数 ， 因 为 从 上 次 释放 和 调用 析 构 之 后 ， 它 已 经 处 于 所 需 鲜 

态 中 了 。 


分 


9 状 


在 一 个 连续 地 址 空间 放 同 样 类 型 的 对象 有 助 于 快速 查找 和 修改 同样 类 型 的 “对 象 "， 提高 分 配 
的 时 间 效率 ， 并 减少 碎片 。 


proj6 概 述 


实现 描述 


proj6 基 于 proj5.2 实 现 ， 主 要 在 buddy 物 理 内 存 页 管理 器 的 基础 上 ， 增 加 了 一 级 任意 大 小 内 存 
分 配 管理 ， 通 过 slab 算 法 实现 对 小 内 存 的 简洁 分 配 ， 为 后 续 的 运行 时 动态 内 存 管理 提供 通用 的 
内 存 申 请 和 释放 接口 、 在 proj6 中 ， 可 以 了 解 到 : 

。 slab 算 法 的 数据 结构 和 具体 实现 ; 

。 小 内 存 分 配 管理 器 与 物理 内 存 页 管理 器 的 接口 和 交互 过 程 。 


项 目 组 成 


一 memlayout.h 


| 一 slab.c 


[一 Slab .h 
| 一 sync 








11 directories, 58 files 


相对 与 proj5.2，proj6 增 加 了 slab.[ch] 两 个 个 文件 ， 主 要 完成 对 slab 内 存 管理 算法 的 简单 实现 。 


(THU.CST) os is loading 


Special kernel symbols: 
entry QOxc010002c (phys) 
etext QOxc0109530 (phys) 
edata Qxc0122aa0 (phys) 
end Oxc0123cb8 (phys) 
Kernel executable memory footprint: 144KB 
memory managment: buddy_pmm_manager 
e820map: 
memory: 0009f400， [00000000, 0009f3ff], type 
memory: 00000c00， [0009f400, O009ffff], type 
memory: 00010000， [000f0000, QQOfFffff], type 
memory: Q7efd000, [00100000, QO7ffcfff], type 
memory: 00003000， [07ffd000, QO7ffffff], type 
memory: 00040000, [fffco000, ffffffff], type 
check_alloc_page() succeeded! 
check_pgdir() succeeded! 
check_boot_pgdir() succeeded! 
本 BEGTNI 
PDE(0e0) c60000000-f8000000 38000000 urw 
|-- PTE(38000) c6000000-f8000000 38000000 -rw 
PDE(001) fac00000-fb000000 00400000 -rw 
|-- PTE(000e0) faf00000-fafe0000 000e0000 urw 
|-- PTE(00001) fafeb000-fafec000 00001000 -rw 
END 
check_slab() succeeded! 
++ Setup timer interrupts 
100 ticks 
100 ticks 


PP NN 忆 


【实现 】slab 算 法 的 简化 设计 实现 


数据 结构 描述 


slab 算法 采用 了 两 层 数 据 组 织 结构 。 在 最 高 层 是 slab_cache， 这 是 一 个 不 同 大 小 slab 缓存 的 
链接 列表 数组 。slab_cache 的 每 个 数组 元 素 都 是 一 个 管理 和 存储 给 定 大 小 的 空闲 对 象 (obj) 
的 slab 结构 链表 ， 这 样 每 个 slab 设 定 一 个 要 管理 的 给 定 大 小 的 对 象 池 ， 占 用 物理 空间 连续 的 1 
个 或 多 个 物理 页 。slab_cache 的 每 个 数组 元 素 管 理 两 种 Slab 列表 : 


。 slabs full : 完全 分 配 的 slab 
。 slabs_notfull : 部 分 分 配 的 slab 


注意 slabs_notfull 列 表 中 的 slab 是 可 以 进行 回收 (reaping) ， 使 得 slab 所 使 用 的 内 存 可 被 返 
回 给 操作 系统 供 其 他 子 系统 使 用 。 


slab 列表 中 的 每 个 slab 都 是 一 个 连续 的 内 存 块 (一 个 或 多 个 连续 页 ) ， 它 们 被 划分 成 一 个 个 
Obj。 这 些 obj 是 中 进行 分 配 和 释放 的 基本 元 素 。 由 于 对 象 是 从 slab 中 进行 分 配 和 释放 的 ， 

此 单个 slab 可 以 在 slab 链表 之 间 进 行 移动 。 例 如 ， 当 一 个 slab 中 的 所 有 对 象 都 被 使 用 完 

时 ， 就 从 slabs_notfull 链表 中 移动 到 slabs_full 链表 中 。 当 一 个 slab 完全 被 分 配 并 且 有 对 象 
被 释放 后 ， 就 从 slabs full 列表 中 移动 到 slabs_notfull 列 表 中 。 下 面 是 ucore 中 的 slab 架 构图 : 


于 ---------------------------------- 于 
slab cache[6] for 0~32B obj 
+---------------------------------- 一 
slab cache[1] for 33B~64B obj -->lists for slabs 
+------------------ 一 











+---------------------------------- 一 
slab cache[12]for 64KB~128KB obj 
+---------------------------------- 一 
slabs full/slabs not Yn + 
<----------- <---------- 二 -二 
| | 
slabl slab2 slab3 


pagesl pages2 pages3... 


slab t+n*bufctl t+0bjl-obj2-obj3...objn (the size of obj is small) 


OR 





objl-obj2-obj3...obin WITH slab t+n*bufctl t in another slab (the size of obj is BIG) 


slab 架 构图 


分 配 与 释放 内 存 实现 描述 


在 来 看 一 下 能 够 创建 新 slab 缓存 、 向 缓存 中 增加 内 存 、 销 毁 缓 存 的 接口 以 及 slab 中 对 对 象 
分 


现 
进行 分 配 和 释放 操作 的 slab 相 关 操 作 过 程 和 函数 。 


第 一 个 步骤 是 通过 执行 slab_init 函 数 初始 化 slab_cache 缓存 结构 。 然 后 其 他 slab 缓存 函数 将 
使 用 该 引用 进行 内 存 分 配 与 释放 等 操作 。ucore 中 最 常用 的 内 存 管 理 函 数 是 kmalloc 和 kfree 
函数 。 这 两 个 函数 的 原型 如 下 : 


e void *kmalloc( size t size ); 
® void kfree(void *objp ); 


在 分 配 任意 大 小 的 空闲 块 时 ，kmalloc 通 过 调用 kmem_cache _alloc 函 数 来 遍历 对 应 size 的 
slab， 来 查找 可 以 满足 大 小 限制 的 缓存 。 如 果 kmem_cache _alloc 函 数 发 现 slab 中 有 空闲 的 
obj， 则 分 配 这 个 对 象 ; 如 果 没 有 空闲 的 obj 了， 则 调用 kmem_cache_ grow 函数 分 配 包含 1 到 多 
页 组 成 的 空闲 slab， 然 后 继续 分 配 。 要 使 用 kfree 释放 对 象 时 ， 通 过 进一步 调用 
kmem_cache_free 把 分 配对 象 返回 到 slab 中 ， 并 标记 为 空 闪 ， 建 立 空闲 obj 之 问 的 链接 关系 。 


(可 进一步 详细 一 些 ) 


实现 虚 存 管理 功能 


试验 目标 


保护 的 作用 。 但 页 表 如 何 仅仅 只 支持 这 个 功能 就 太 大 材 小 用 了 。 我 们 其 实 还 可 以 通过 页 表 实 


现 更 多 的 功能 : 


。 内 存 共享 : 把 两 个 虚拟 地 址 空间 通过 页 表 映 射 到 同一 物理 地 址 空间 。 这 只 需 通 过 设置 不 


同 索 引 的 页 表 项 的 内 容 一 致 即 可 。 

提供 超过 物理 内 存 大 小 的 虚拟 内 存 空 间 : 这 一 步 需要 结合 异常 中 断 处 理 和 硬盘 来 完成 。 
其 基本 思想 是 在 内 存 中 放置 最 常用 的 一 些 数据 ， 不 常用 的 数据 会 被 放 到 硬盘 上 ， 但 给 用 
户 态 的 软件 一 种 感觉 ， 觉 得 这 些 数据 都 在 内 存 中 。 当 用 户 态 软件 访问 到 的 数据 不 在 内 存 
中 (暂时 存放 在 硬盘 上 ) 的 时 候 ， 这 条 访 存 指令 会 引发 异常 中 断 ， 由 操作 系统 的 异常 中 
断 处 理 例 程 进行 管理 。 这 时 操作 系统 会 分 析 引 发 异常 的 内 存 地 址 ， 能 够 把 对 应 缓存 在 硬 
盘 中 的 数据 重新 读 入 这 个 内 存 地 址 ， 并 让 用 户 态 软件 重新 执行 产生 访 存 异常 的 那 条 指 
令 。 这 些 由 操作 系统 完成 的 工作 在 用 户 态 完全 “看 "不 到 。 从 用 户 态 软件 的 角度 看 ， 只 是 操 
作 系 统 给 用 户 提供 了 一 个 超出 实际 物理 内 存 大 小 的 虚拟 内 存 空 间 。 


按 需 分 配 内 存 : 用 户 态 软 件 在 运行 时 要 求 操作 系统 提供 很 大 的 内 存 ， 操 作 系统 "表面 上 " 表 
示 满 足 用 户 需 求 ， 但 在 背后 并 没有 实际 分 配对 应 的 物理 内 存 空间 。 等 到 用 户 态 软件 实际 
执行 到 对 这 些 内 存 的 访问 时 ， 由 于 没有 分 配对 应 的 物理 内 存 空 间 ， 会 导致 产生 访 存 异 

常 。 操 作 系 统 的 异常 中 断 处 理 例 程 发 觉 这 是 用 户 态 软 件 以 前 确实 要 求 过 的 内 存 空间 ， 则 
在 从 系统 管理 的 空闲 空间 中 分 配 一 页 或 几 页 物理 内 存 给 用 户 态 软件 ， 并 让 用 户 态 软 件 重 
新 执行 产生 访 存 异 常 的 那 条 指令 。 这 些 由 操作 系统 完成 的 工作 在 用 户 态 也 完全 “看 "不 到 。 
但 从 操作 系统 的 整体 管理 的 角度 看 ， 这 种 方式 在 用 户 态 软 件 确实 需要 的 时 候 把 内 存 分 配 
给 用 户 态 软 件 ， 提 高 了 内 存 的 使 用 率 ， 避 免 了 用 户 态 软件 * 圈 地 不 用 "的 现象 。 


为 了 高 效 地 完成 上 述 三 件 事情 ， 操 作 系统 需要 考虑 应 该 把 哪些 不 常用 的 内 存 换 出 到 硬盘 上 
去 ， 这 就 是 内 存 的 页 替换 算法 ， 常 见 的 有 LRU 算 法 ，Clock 算 法 ， 三 次 机 会 法 等 。 而 在 实现 
上 ， 由 于 涉及 异常 处 理 和 硬 瘟 管理 等 ， 庶 存 管理 在 整个 ucore 实 现 中 的 相对 复杂 度 是 最 大 的 。 


【原理 】 虚 拟 内 存 管 理 


什么 是 虚拟 内 存 ? 简单 地 说 ， 是 指 程序 员 或 CPU “需要 ”和 直接 “看 到 ”的 内 存 ， 这 其 实 暗示 了 两 
点 : 1、 虚 拟 内 存单 元 不 一 定 有 实际 的 物理 内 存单 元 对 应 ， 即 实际 的 物理 内 存单 元 可 能 不 存 

在 ; 2、 如 果 上 庶 拟 内 存单 元 对 应 有 实际 的 物理 内 存单 元 ， 那 二 者 的 地 址 一 般 不 是 相等 的 。 通 过 
操作 系统 的 某 种 内 存 管 理 和 映射 技术 可 建立 虚拟 内 存 与 实际 的 物理 内 存 的 对 应 关系 ， 使 得 程 
序 员 或 CPU 访 问 的 虚拟 内 存 地 址 会 转换 为 另外 一 个 物理 内 存 地 址 。 


那么 这 个 “虚拟 "的 作用 或 意义 在 哪里 体现 呢 ? 在 操作 系统 中 ， 庶 拟 内 存 其 实 包 含 多 个 虚拟 层 

次 ， 在 不 同 的 层次 体现 了 不 同 的 作用 。 首 先 ， 人 分 段 或 分 页 机 制 后 ， 程 序 员 或 CPU 直 

接 “ 看 到 ”的 地 址 已 经 不 是 实际 的 物理 地 址 了 ， 这 已 经 有 一 层 虚拟 化 ， 我 们 可 简称 为 内 存 地 址 虚 
拟 化 。 有 了 内 存 地 址 虚拟 化 ， 我 们 就 可 以 通过 设置 段 界 限 或 页 表 项 来 设 定 软件 运行 时 的 访问 
空间 ， 确 保 软件 运行 不 越界 ， 完 成 内 存 访 问 保 护 的 功能 。 


过 内 存 地 址 庶 拟 化 ， 可 以 使 得 软件 在 没有 访问 某 虚 拟 内 存 地 址 时 不 分 配 具体 的 物理 内 存 ， 

只 有 在 实际 访问 某 虚 拟 内 存 地址 时 ， 操 作 系统 再 动态 地 分 配 物理 内 存 ， 建 立 虚 拟 内 存 到 物 
理 内 存 的 页 映射 关系 ， 这 种 技术 属于 lazy load 技 术 ， 简 称 按 需 分 页 (demand paging) 。 把 不 
经 常 访问 的 数据 所 占 的 内 存 空间 临时 写 到 硬盘 上 ， 这 样 可 以 腾 出 更 多 的 空闲 内 存 空间 给 经 常 
访问 的 数据 ; 当 CPU 访 问 到 不 经 常 访问 的 数据 时 ， 再 把 这 些 数 据 从 硬盘 读 入 到 内 存 中 ， 这 种 
换 入 换 出 (page swap in/out) 。 两 个 虚拟 页 a ， 可 只 分 配 一 个 物 

页 框 ， 这 样 如 果 对 两 个 虚拟 页 的 访问 方式 是 只 读 方式 ， 这 这 两 个 虚拟 页 可 共享 页 框 ， 节 省 
0 间 ; 如 果 CPU 对 其 中 之 一 的 虚拟 页 5 we， 的 数据 内 容 会 不 同 ， 
需要 分 配 一 个 新 的 物理 页 框 ， 并 将 物理 页 框 标 记 为 可 写 ， 这 样 两 个 虚拟 页 面 将 映射 到 不 同 的 
物理 页 帧 ， 确 保 整 个 内 存 空 间 的 正确 访问 。 这 种 技术 称 为 写 时 复制 (Copy On Write， 简 称 
COW) 。 这 三 种 内 存 管 理 技术 给 了 程序 员 更 大 的 内 存 “ 空 间 ”， 我 们 称 为 内 存 空间 虚拟 化 。 


ucore 在 实现 上 述 三 种 技术 时 ， 需 要 解决 的 一 个 关键 问题 是 ， 何 时 进行 请 求 调 页 /页 换 入 换 出 / 
写 时 复制 处 理 ? 其 实 ， 在 程序 的 执行 过 程 中 由 于 某 种 原因 (页 框 不 存在 / 写 只 读 页 等 ) 而 使 
CPU 无 法 最 终 访问 到 相应 的 物理 内 存单 元 ， 即 无 法 完成 从 虚拟 地 址 到 物理 地 址 映射 时 ，CPU 
会 产生 一 次 缺 页 异常 ， 从 而 需要 进行 相应 的 缺 页 异常 服务 例 程 。 这 个 缺 页 异常 处 理 的 时 机 就 

是 求 调 页 /页 换 入 换 出 / 写 时 复制 处 理 的 执行 时 机 ， 当 相关 处 理 完成 后 ， 缺 页 异常 服务 例 程 会 返 
回 到 产生 异常 的 指令 处 重新 执行 ， 使 得 软件 可 以 继续 正常 运行 下 去 。 


proj7/8/9/9.1/9.2 概 述 


为 了 实现 虚 存 管理 ， 首 先 需要 能 够 处 理 缺 页 异常 ， 这 是 需要 对 当前 的 trap 处 理 进行 扩展 ， 并 能 
够 描述 当前 内 核 中 “合法 "的 虚拟 内 存 ne 。proj7 在 proj6 的 基础 上 实 
现 了 上 述 过 程 ， 新 增加 的 主要 工作 包括 : 


。 描述 当前 “合法 "的 虚拟 内 存 的 数据 结构 vma_struct 和 针对 vma_struct 的 函数 操作 ; 
。 扩展 trap_dispatch 有 函数 ， 使 得 能 够 根据 vma_struct 结 构 的 描述 ， 正 确 完成 对 缺 页 的 处 理 
( 即 如 果 发 现 是 “合法 "的 虚拟 内 存 地 址 ， 则 创建 或 修改 页 表 项 来 建立 与 物理 内 存 页 的 对 应 
关系 ) 。 


为 了 提供 超过 物理 内 存 大 小 的 虚拟 内 存 空间 ， — hs 换 出 到 硬盘 上 ， 这 样 当 访问 
到 这 些 不 存在 的 虚 存 页 时 ， 会 产生 缺 页 异常 ， 可 以 把 这 些 页 再 从 硬盘 拷贝 回 到 内 存 中 。proj8 
在 proj7 的 基础 上 完成 上 述 过 程 的 实现 ， 新 增加 的 了 本 人 包括 : 


。 为 了 准备 swap in/out， 实 现 通过 PIO 方 式 读 写 IDE 格 式 的 硬盘 ; 
e。 建立 swap 相 关 数 据 结构 和 相关 操作 ， 确 保 不 常用 的 页 能 够 被 换 出 (swap out) 到 硬盘 
上 ， 并 在 被 访问 时 ， 能 够 从 硬盘 对 应 的 扇 区 中 换 入 (swap in) 到 内 存 中 ; 


为 了 实现 将 来 不 同 进程 (用 户 态 程序 ) 之 间 共 享 内 存 ， 需 要 对 描述 虚拟 内 存 的 vma_strct 结 构 
进行 扩展 。proj9/9.1 在 proj8 的 基础 上 完成 上 述 过 程 的 实现 ， 新 增加 的 主要 工作 包括 : 


。 增加 shmem_node 结 构 的 描述 ， 确 保 能 够 描述 多 个 虚拟 页 映射 到 一 个 物理 页 的 情况 ， 并 
增加 针对 shmem node 的 处 理 。 


e 为 了 减少 复制 内 存 的 开销 ， 可 通过 实现 写 时 复制 (Copy On Write， 简 称 COW ) 机 制 来 
完成 ， 其 基本 思路 是 在 只 读 情 况 下 ， 多 个 虚拟 页 只 需 映 射 到 一 个 物理 页 上 ， 当 对 虚拟 页 
进行 写 操作 时 ， 才 站 正 完成 对 物理 页 的 复制 。 a 性 进行 扩展 ， 能 
够 在 发 生 页 保护 异常 时 ， 探 测 出 是 为 了 “ 写 时 复制 "而 设置 的 页 ， 这 样 在 缺 页 异常 处 理 中 ， 
会 完成 实际 的 分 配 新 页 操作 。proj9.2 在 proj9. i 述 过 程 的 实现 ， 新 增加 的 
主要 工作 包括 : 


。 et a ， 使 得 能 够 根据 产生 异常 的 地 址 的 页 表 项 内 容 和 此 地 址 对 应 的 vma 
中 的 属性 描述 ， 正 确 完成 对 的 “ 写 时 复制 "处 理 。 


proj7 : 支持 缺 页 异 第 和 VMA 结 构 


proj7 项 目 组 成 


proj7 


相对 与 proj6，proj7 主 要 修改 和 增加 的 文件 如 下 : 


init.c : 在 kern_init 中 增加 调用 初始 化 虚 存 管理 函数 vmm_init 

pmm.[ch] : 增加 pgdir_alloc_page 兄 数 ， 完 成 分 配 一 个 空闲 物理 页 ， 并 设置 好 页 表 项 ， 完 
成 正确 的 虚拟 地 址 到 物理 地 址 的 转换 ; 

trap.c : 完成 对 缺 页 异常 的 基本 操作 ， 调 用 vmm.c 中 的 do_pgfault 函 数 完 成 具体 的 缺 页 处 
理 ; 

X86.h : 完成 对 控制 寄存 器 CR1 和 CR2 的 读 操作 ; 

vmm.[ch] : 新 增 的 文件 ， 主 要 是 建立 vma_struct 结 构 ， 用 于 描述 不 存在 的 虚拟 内 存 ， 并 
完成 针对 此 结构 的 相关 操作 函数 。 


proj7 编 译 运 行 


编译 并 运行 proj7 的 命令 如 下 : 


make 


make qemu 


则 可 以 得 到 如 下 显示 界面 


chenyu@chenyu-laptop:~/oscourse/branches/testing/chyyuu/proj7i$ make qemu 
(THU.CST) os is loading ... 


Special kernel symbols: 
entry QOxc010002c (phys) 
etext QOxco1i0aesf (phys) 
edata QOxc0127aa0 (phys) 
end Oxc0128cbc (phys) 
Kernel executable memory footprint: 164KB 
memory managment: buddy_pmm_manager 
e820map : 
memory: 0009f400， [00000000，0009f3ff]，type = 
memory: 00000c00， [0009f400，0009ffff]，type = 
memory: 00010000， [000f0000，000ffTfff]，type = 
memory: Q7efd000, [00100000，07ffcfff]，type = 
memory: 00003000， [07ffd000, QO7ffffff], type = 
memory: 00040000， [fffco000, ffffffff], type = 
check_alloc_page() succeeded! 


PNPHhhRNN 


check_pgdir() Succeeded ! 
check_boot_pgdir() succeeded! 
SESE Sr se BEGLTENY = 
PDE(0e0) c0000000-f8000000 38000000 urw 
|-- PTE(38000) c6000000-f8000000 38000000 -rw 
PDE(001) fac00000-fb000000 00400000 -rw 
|-- PTE(000e0) faf00000-fafe0000 000e0000 urw 
|-- PTE(00001) fafeb000-fafec000 00001000 -rw 
FB ENDS 
check_slab() succeeded! 
size of struct mm _ struct is 24, size of struct vma_ struct is 40 
check_vma_struct() succeeded! 
page fault at 0x00000100: K/W [no page found]. 
check_pgfault() succeeded! 
check_vmm( ) succeeded. 
++ Setup timer interrupts 
100 ticks 
100 ticks 


通过 上 图 ， 我 们 可 以 看 到 Ucore 在 check_vma_struct 驾 数 中 完成 基于 vma_struct 结 构 的 数据 创 
建 等 操作 ， 确 保 能 够 正确 建立 vma_struct 结 构 ， 并 在 成 功 测试 后 打印 “check_vma_struct() 
succeededl”; 接 下 来 ucore 创 建 一 个 描述 了 虚拟 地 址 0~4K 的 vma_struct 结 构 ， 这 个 0 虚拟 地 址 
起 始 的 虚拟 页 没有 对 应 的 物理 页 ， 所 以 在 实际 访问 这 个 虚拟 地 址 的 时 候 会 产生 缺 页 异常 ， 中 
断 处 理 例 程 会 经 过 如 下 调用 : 


VectorXXX(Vvectors.S)-->\ alltraps(trapentry.S)--> trap(trap.c)-->trap_dispatch(trap.c 
运 
-->pgfault_handler(trap.c)-->print_pgfault(trap.c) 


来 显示 出 错 的 位 置 和 原因 “page fault at 0x00000100: K/W [no page found].”， 即 在 内 核 态 对 虚 
存 地 址 0x100 处 执行 写 操作 出 现 了 缺 页 异常 。 并 进一步 调用 do_pgfault 部 数 来 检测 时 候 此 虚拟 
地 址 属于 某 个 vma_struct 描 述 的 范畴 ， 如 果 是 ， 则 会 分 配 一 个 物理 页 来 对 应 此 虚拟 地 址 所 在 的 
虚拟 页 ， 并 返回 继续 执行 引起 缺 页 异常 的 指令 。 如 果 测 试 能 够 正确 执行 对 应 的 写 操作 指令 ， 
表明 能 正确 处 理 缺 页 异常 ， 则 显示 


“check_pgfault() succeeded!” 和 “check_vmm() Succeeded.”。 


【实现 】 缺 页 异常 处 理 


当局 动 分 页 机 制 以 后 ， 如 果 一 条 指令 或 数据 的 虚拟 地 址 所 对 应 的 物理 页 框 不 在 内 存 中 或 者 访 
ee 曾 误 i 写 一 个 只 读 页 或 用 户 态 程序 访问 内 核 态 的 数据 等 ) ， 就 会 发 生 缺 页 异 
常 。 产 生 页 面 异 常 的 原因 主要 有 : 


e。 目标 页 面 不 存在 (页 表 项 全 为 0， 即 该 线性 地 址 与 物理 地 址 尚未 建立 映射 或 者 已 经 撤销 ) ; 

e 相应 的 物理 页 面 不 在 内 存 中 (页 表 项 非 空 ， 但 Present 标 志 位 =0， 上 比如 在 swap 分 区 或 磁盘 
文件 上 )， 这 将 在 下 面 介绍 换 页 机 制 实 现时 进一步 讲解 如 何 处 理 ; 

。 访问 权限 不 符合 (此 时 页 表 项 P 标 志 =1， 比 如 企图 写 只 读 页 面 ) 


当 出 现 上 面 情况 之 一 ， 那 么 就 会 产生 页 面 page fault (#PF) 异常 。 产 生 异 常 的 线性 地 址 存储 
在 CR2 中 ， 并 且 将 #PF 的 类 型 保存 在 error code 中 ， 比 如 bit 0 表示 是 否 PTE_P 为 0，bit 1 
表示 是 否 write 操作 。 


和 

， 所 以 针对 一 般 异 常 的 硬件 处 理 操作 是 必须 要 做 的 ， 即 CPU 在 当前 内 核 栈 保存 当前 被 打 断 
We 即 依次 压 入 当前 被 打 断 程序 使 用 的 eflags，cs，eip，errorCode ; 由 于 缺 页 异常 
的 中 断 号 是 0OxXE ，CPU 把 中 断 0xE 服 务 例 程 的 地 址 (vectors.S 中 的 标号 vector14 处 ) 加 载 到 cs 
和 eip 寄 存 器 中 ， 开 始 执行 中 断 服务 例 程 。 这 时 ucore 开 始 处 理 异 常 中 断 ， 首 先 需 要 保存 硬件 没 
有 保存 的 寄存 器 。 在 vectors.S 中 的 标号 vector14 处 先 把 中 断 号 压 入 内 核 栈 ， 然 后 再 在 
trapentry.S 中 的 标号 _alltraps 处 把 ds、es 和 其 他 通用 寄存 器 都 压 栈 。 自 此 ， 被 打 断 的 程序 现 
场 被 保存 在 内 核 栈 中 。 


接 下 来 ， 在 trap.c 的 trap 函 数 开始 了 中 断 服务 例 程 的 处 理 流 程 ， 大 致 调用 关系 为 : 


trap--> trap_dispatch-->pgfault_handler-->do_pgfault 


需要 具体 分 析 一 下 do_pgfault 函 数 。CPU 把 引起 缺 页 异常 的 虚拟 地 址 装 到 寄存 器 CR2 中 ， 
人 出 了 出 错 码 〈tf->tf_err) ， 指 示 引 起 缺 页 异常 的 存储 器 访问 的 类 型 。 而 中 断 服务 例 程 会 调 
用 缺 页 异常 处 理 函 数 do_pgfault 进 行 具体 处 理 。 缺 页 异常 处 理 是 实现 按 需 分 页 、swap in/out 和 
写 时 复制 的 关键 之 处 ， 后 面 的 小 节 将 分 别 展 开讲 述 。 


ucore 中 do_pgfault 函 数 是 完成 缺 页 异常 处 理 的 主要 函数 ， 它 根据 从 CPU 的 控制 寄存 器 J 
获取 的 缺 页 异常 的 虚拟 地 址 以 及 根据 error code 的 错误 类 型 来 查找 此 虚拟 地 址 是 否 在 某 
VMA 的 地 址 范围 内 以 及 是 否 满足 正确 的 读 写 权 限 ， 如 果 在 此 站 0 
这 是 一 次 合法 访问 ， 但 没有 建立 虚实 对 应 关系 。 所 以 需要 分 配 一 个 空闲 的 内 存 页 ， 并 修改 页 
表 完 成 庶 地 址 到 物理 地 址 的 上 映射， 刷新 TLB， 然 后 调用 iret 中 断 ， 返 回 到 产生 缺 页 异常 的 指令 
处 重新 执行 此 指令 。 如 果 该 虚 地 址 不 再 某 VMA 范 围 内 ， 这 认为 是 一 次 非法 访问 。 


【注意 ) 


地 址 空间 的 管理 由 虚 存 管理 和 页 表 管 理 两 部 分 组 成 。 虚 存 管 理 限 制 了 (程序 ) 地 址 空间 的 范 
围 以 及 权限 ， 而 页 表 维 护 的 是 实际 使 用 的 地 址 空间 以 及 权限 ， 后 者 不 能 比 前 者 有 更 大 的 范围 
或 者 权限 ， 因 为 前 者 是 实际 管理 页 表 的 。 比 如 权限 ， 虚 存 管 理 可 以 规定 地 址 空间 的 某 个 范围 
是 可 写 的 ， 但 是 页 表 中 却 可 以 标记 是 read-only 的 (比如 copy-on-write 的 实现 ) ， 这 种 冲突 可 
以 被 内 核 (通过 硬件 异常 ) 轻易 的 捕获 到 ， 并 进行 相应 的 处 理 。 反 过 来 ， 如 果 页 表 权 限 比 虚 
存 规 定 的 权限 更 大 ， 内 核 是 没有 办 法 发 现 这 种 冲突 的 。 由 于 虚 存 管理 的 存在 ， 内 核 才 能 方便 
的 实现 更 复杂 和 丰富 的 操作 ， 比 如 share memory、swap 等 。 在 后 续 的 实验 中 还 会 遇 到 上 庶 存 
管理 只 维护 用 户 地 址 空间 (也 就 是 [USERBASE, USERTOP) 区 间 ) 的 情况 ， 因 为 内 核 地 址 空 

间 包 括 虚 存 和 页 表 都 是 固定 的 。 


proj8 : 支持 页 换 入 换 出 


proj8 项 目 组 成 
编译 并 运行 proj8 的 命令 如 下 : 


make 
make qemu 


则 可 以 得 到 如 下 显示 界面 


proj8 
-一 driver 
= 
| 一 ide.c 
[一 ide.h 
-一 fs 
一 fs.h 


| 一 swapfs.c 
-一 swapfs .h 


一 memlayout.h 


上 一 pmm.c 
| 一 swap.c 
| 一 swap .h 
一 vmm.c 


-一 vmm.h 
| 一 sync 

[一 sync .h 
— trap 

一 trap.c 

Es 





= dS 
| 一 hash.c 
EE 





相对 于 proj7，proj8 主 要 修改 和 增加 的 文件 如 下 : 


。 ide.[ch] : 实现 了 对 IDE 硬 盘 的 PIO 方 式 的 该 区 读 写 功能 ， 用 于 支持 把 页 换 入 和 换 出 硬盘 。 

。 swapfs.[ch] : 根据 页 和 硬盘 局 区 的 映射 关系 ， 实 现 了 在 IDE 硬 盘 上 的 swap 文 件 组 织 ， 并 
实现 了 把 页 写 入 swap 文 件 和 从 swap 文 件 读 入 页 的 功能 。 需 要 ide.[ch] 的 支持 。 

。 swap.[ch] : 参考 Linux2.4 的 页 替换 策略 ， 实 现 了 一 个 简化 的 双 链 表 页 替换 策略 。 


。 memlayout.h : 修改 Page 等 关键 数据 结构 ， 支 持 双 链 页 替换 策略 。 

。 pmm.c : 修改 page_remove_pte 有 函数 ， 支 持 双 链 页 替换 策略 。 

。 vmm.c : 修改 do_pgfault 有 函数 ， 支 持 页 的 换 入 换 出 。 

。 Sync.h : 增加 lock/unlock 支 持 ， 支 持 页 的 换 入 换 出 过 程 不 会 出 现 race condition 现 象 。 


可 一 


proj8 编 译 运 4 


(THU.CST) os is loading ... 


Special kernel symbols: 
entry QOxc010002c (phys) 
etext QOxco1i0dfec (phys) 
edata 0xco912faa8 (phys) 
end Oxc0132e20 (phys ) 
Kernel executable memory footprint: 204KB 
memory managment: buddy_pmm_manager 
e820map: 
memory: 0009f400， [00000000, 0009f3ff], type = 
memory: 00000c00， [0009f400，0009ffff]，type = 
memory: 00010000, [000f0000，000fffff]，type = 
memory: Q7efd000, [00100000, QO7ffcfff], type = 
memory: 00003000， [07ffd000, QO7ffffff], type = 
memory: 00040000, [fffco000, ffffffff], type = 
check_alloc_page() succeeded! 


PNPHhhRNN 


check_pgdir() succeeded! 
check_boot_pgdir() succeeded! 
0 BEGTND 
PDE(0e0) c0000000-f8000000 38000000 urw 
|-- PTE(38000) c6000000-f8000000 38000000 -rw 
PDE(001) fac00000-fb000000 00400000 -rw 
|-- PTE(000e0) faf00000-fafe0000 000e0000 urw 
|-- PTE(00001) fafeb000-fafec000 00001000 -rw 
EE ENDE=== = 人 
check_slab() succeeded! 
check_vma_struct() succeeded! 
page fault at 0x00000100: K/W [no page found]. 
check_pgfault() succeeded! 
check_vmm( ) succeeded. 
ide 0: 10000(sectors), 'QEMU HARDDISK'. 
Ide 1: 262144(sectors), 'QEMU HARDDISK'. 
page fault at 0x00000000: K/W [no page found]. 
page fault at 0x00000000: K/W [no page found]. 
page fault at Ox00001001: K/W [no page found]. 
page fault at 0x00001000: K/R [no page found]. 
page fault at Ox00000000: K/R [no page found]. 
check_swap() succeeded. 
++ Setup timer interrupts 
100 ticks 


check_swap 哆 数 对 Ucore 在 proj8 中 建立 的 双 链 页 面 置 换 病 略 进行 了 测试 ， 验 证 了 其 正确 性 ， 
下 面 我 们 将 从 原理 和 实际 实现 两 个 方面 来 分 析 proj8 中 实现 的 页 面 置换 算法 。 


【原理 】 页 面 置换 算法 


操作 系 人 行 页 面 置换 呢 ? 这 是 由 于 操作 系统 给 用 户 态 的 应 用 程序 提供 了 一 个 虚拟 

的 “大 容量 ”内存 空间 ， 而 实际 的 物理 内 存 空间 又 没有 那么 大 。 所 以 操作 系统 就 就 " 眶 着 "应 用 程 
序 ， 只 把 应 用 程序 中 “常用 ” Wt eh ， 而 不 常用 的 数据 和 代码 放 在 了 硬盘 
这 样 的 存储 介质 上 。 如 果 应 用 程序 访问 的 是 “常用 ”的 数据 和 人 代码， 那么 操作 系统 已 经 放置 在 内 
存 中 了 ， 不 会 出 现 什么 问题 。 但 当 应 用 程序 访问 它 认为 应 该 在 内 存 中 的 的 数据 或 代码 时 ， 如 
果 这 些 数据 或 代码 不 在 内 存 中 ， 则 根据 上 一 小 节 的 介绍 ， 会 产生 缺 页 异常 。 这 时 ， 操 作 系 统 
必须 能 够 应 对 这 种 缺 页 异常 ， 即 尽快 把 应 用 程序 当前 需要 的 数据 或 代码 放 到 内 存 中 来 ， 然 后 
重新 执行 应 用 程序 产生 异常 的 访 存 指令 。 如 果 在 把 硬盘 中 对 应 的 数据 或 代码 调 入 内 存 前 ， 操 
作 系 统 发 现 物理 内 存 已 经 没有 空闲 空间 了 ， 这 时 操作 系统 必须 把 它 认 为 “不 常用 "的 页 换 出 到 磁 
盘 上 去 ， 以 腾 出 内 存 空闲 空间 给 应 用 程序 所 需 的 数据 或 代码 。 


操作 系统 迟早 会 碰 到 没有 内 存 空 闲 空间 而 必须 要 置换 出 内 存 中 某 个 “不 常用 "的 页 的 情况 。 如 何 

判断 内 存 中 哪些 是 “常用 ”的 页 ， 哪 些 是 “不 常用 ”的 页 ， 把 “常用 ”的 页 保持 在 内 存 中 ， 在 物理 内 

闲 空间 不 够 的 情况 下 ， 把 “不 常用 "的 页 置换 到 硬盘 上 就 是 页 面 置换 算法 着 重 考 虑 的 问题 。 
易 理 解 ， 一 个 好 的 页 面 置 换算 法 会 导致 缺 页 异常 次 数 少 ， 也 就 意味 着 访问 硬盘 的 次 数 也 

， 从 而 使 得 应 用 程序 执行 的 效率 就 高 。 


从 操作 系统 原理 的 角度 看 ， 有 如 下 一 些 页 面 置 换算 法 : 


。 最 优 (Optimal) 页 面 置 换算 法 : 由 Belady 于 1966 年 提出 的 一 种 理论 上 的 算法 。 其 所 选 
的 被 淘汰 页 面 ， 将 是 以 后 永 不 使 用 的 或 许 是 在 最 长 的 未 来 时 间 内 不 再 被 访问 的 页 面 。 采 
用 最 佳 置换 算法 ， 通 常 可 保证 获得 最 低 的 缺 页 府 。 但 由 于 操作 系统 其 实 无 法 预知 一 个 应 

用 程序 在 执行 过 程 中 访问 到 的 若干 页 中 ， 哪 一 个 页 是 未 来 最 长 时 间 内 不 再 被 访问 的 ， 因 
而 该 算法 是 无 法 实际 实现 ， 但 可 以 此 算法 作为 上 限 来 评价 其 它 的 页 面 置换 算法 。 


IN i 面 置换 算法 : 该 算法 总 是 淘汰 最 先进 入 内 存 的 页 
选择 在 内 存 中 驻 留 时 间 最 久 的 页 ee 
存 的 页 按 先后 次 序 链接 成 一 个 队列 ， 队 列 头 指向 内 存 中 驻 留 时 间 最 久 的 页 ， 队 列 尾 指向 
最 近 被 调 入 内 存 的 页 。 这 样 需要 淘汰 页 时 ， 从 队列 头 很 容易 查找 到 需要 淘汰 的 页 。FIFO 
算法 只 是 在 应 用 程序 按 线性 顺序 访问 地 址 空间 时 效果 才 好 ， 否 则 效率 不 高 。 因 为 那些 常 
被 访问 的 页 ， 往 往 在 内 存 中 也 停留 得 最 久 ， 结 果 它 们 因 变 “ 老 " 而 不 得 不 被 置换 出 去 。 
FIFO 算 法 的 另 一 个 缺点 是 ， 它 有 一 种 异常 现象 《Belady 现 象 ) ， 即 在 增加 放置 页 的 页 
的 情况 下 ， 反 而 使 缺 页 异常 次 数 增多 。 


。 二 次 机 会 (Second Chance) 页 面 置 换算 法 : 为 了 克服 FIFO 算 法 的 缺点 ， 人 们 对 它 进行 
了 改进 。 此 算法 在 页 表 项 (PTE) 中 设置 了 一 位 访问 位 来 表示 此 页 表 项 对 应 的 页 当前 是 
否 被 访问 过 。 当 该 页 被 访问 时 ，CPU 中 的 MMU 硬 件 将 把 访问 位 置 “1”。 当 需要 找到 一 个 页 
淘汰 时 ， 对 于 最 “ 老 "的 那个 页 面 ， 操 作 系 统 去 检查 它 的 访问 位 。 如 果 访 问 位 是 0， 说 明 这 


个 页 面 老 且 无 用 ， 应 该 立刻 淘汰 出 局 ; 如 果 访 问 位 是 1， 这 说 明 该 页 面 曾经 被 访问 过 ， 因 
此 就 再 给 它 一 次 机 会 。 具 体 来 说 ， 先 把 访问 位 位 清 零 ， 然 后 把 这 个 页 面 放 到 队列 的 尾 
端 ， 并 修改 它 的 装 入 时 间 ， 就 好 像 它 刚 刚 进入 系统 一 样 ， 然 后 继续 往 下 搜索 。 二 次 机 会 
算法 的 实质 就 是 寻找 一 个 比较 十 老 的 、 而 且 从 上 一 次 缺 页 异常 以 来 尚未 被 访问 的 页 面 。 
如 果 所 有 的 页 面 都 被 访问 过 了 ， 它 就 退化 为 纯粹 的 FIFO 算 法 。 


。 LRU(Least Recently Used，LRU) 页 面 置换 算法 : FIFO 置 换算 法 性 能 之 所 以 较 差 ， 是 因 
为 它 所 依据 的 条 件 是 各 个 页 调 入 内 存 的 时 间 ， 而 页 调 入 的 先后 顺序 并 不 能 反映 页 是 否 “ 常 
用 ”的 使 用 情况 。 最 近 最 久未 使 用 (LRU) 置换 算法 ， 是 根据 页 调 入 内 存 后 的 使 用 情况 进 
行 决策 页 是 否 “ 常 用 "。 由 于 无 法 预测 各 页 面 将 来 的 使 用 情况 ， 只 能 利用 "最 近 的 过 去 " 作 
为 “最近 的 将 来 "的 近似 ， 因 此 ，LRU 置 换算 法 是 选择 最 近 最 久未 使 用 的 页 予以 淘汰 。 该 算 
法 赋予 每 个 页 一 个 访问 字段 ， 用 来 记录 一 个 页 面 自 上 次 被 访问 以 来 所 经 历 的 时 间 {t， 当 须 
淘汰 一 个 页 面 时 ， 选 择 现 有 页 面 中 其 t 值 最 大 的 ， 即 最 近 最 久未 使 用 的 页 面 了 予以 淘汰 。 


。 时 钟 (Clock) 页 面 置 换算 法 : 也 称 最 近 未 使 用 (Not Used Recently NUR) 页 面 置 换算 
法 。 虽 然 二 次 机 会 算法 是 一 个 较 合 理 的 算法 ， 但 它 经 常 需要 在 链表 中 移动 页 面 ， 这 样 做 
既 降 低 了 效率 ， 又 是 不 必要 的 。 一 个 更 好 的 办 法 是 把 各 个 页 面 组 织 成 环形 链表 的 形式 ， 

类 似 于 一 个 钟 的 表面 。 然 后 把 一 个 指针 指向 最 古老 的 那个 页 面 ， 或 者 说 ， 最 先进 来 的 那 
个 页 面 。 时 钟 算法 和 第 二 次 机 会 算法 的 功能 是 完全 一 样 的 ， 只 是 在 具体 实现 上 有 所 不 

同 。 时 钟 算 法 需要 在 页 表 项 (PTE) 中 设置 了 一 位 访问 位 来 表示 此 页 表 项 对 应 的 页 当前 
是 否 被 访问 过 。 当 该 页 被 访问 时 ，CPU 中 的 MMU 硬 件 将 把 访问 位 置 “1”。 然 后 将 内 存 中 所 
有 的 页 都 通过 指针 链接 起 来 并 形成 一 个 循环 队列 。 初 始 时 ， 设 置 一 个 当前 指针 指向 茶 页 
(比如 最 古老 的 那个 页 面 ) 。 操 作 系 统 需要 淘汰 页 时 ， 对 当前 指针 指向 的 页 所 对 应 的 页 
表 项 进行 查询 ， 如 果 访 问 位 为 “0”， 则 淘汰 该 页 ， 把 它 换 出 到 硬盘 上 ; 如 果 访 问 位 为 “1”， 
这 将 该 页 表 项 的 此 位 置 “0”， 继 续 访问 下 一 个 页 。 该 算法 近似 地 体现 了 LRU 的 思想 ， 且 允 
于 实现 ， 开 销 少 。 但 该 算法 需要 硬件 支持 来 设置 访问 位 ， 且 该 算法 在 本 质 上 与 FIFO 算 法 
是 类 似 的 ， 惟 一 不 同 的 是 在 clock 算 法 中 跳 过 了 访问 位 为 1 的 页 。 


改进 的 时 钟 Enhanced Clock) 页 面 置换 算法 : 在 时 钟 置换 算法 中 ， 淘 汰 一 个 页 面 时 只 
考虑 了 页 面 是 否 被 访问 过 ， 但 在 实际 情况 中 ， 还 应 考虑 被 淘汰 的 页 面 是 否 被 修改 过 。 因 
为 淘汰 修改 过 的 页 面 还 需要 写 回 硬盘 ， 人 其 置换 代价 大 于 未 修改 过 的 页 面 。 改 进 的 时 
钟 置 换算 法 除了 考虑 页 面 的 访问 情况 ， 还 需 考虑 页 面 的 修改 情况 。 即 该 算法 不 但 希望 淘 
汰 的 页 面 是 最 近 未 使 用 的 页 ， 而 且 还 希望 被 淘汰 的 页 是 在 主 存 驻 留 期 间 其 页 面 内 容 未 被 
修改 过 的 。 这 需要 为 每 一 页 的 对 应 页 表 项 内 容 中 增加 一 位 引用 位 和 一 位 修改 位 。 当 该 页 
被 访问 时 ，CPU 中 的 MMU 硬 件 将 把 访问 位 置 “1”。 当 该 页 被 * 写 "时 ，CPU 中 的 MMU 硬 件 将 
把 修改 位 置 “1”。 这 样 这 两 位 就 存在 四 种 可 能 的 组 合 情 况 : (0，0) 表示 最 近 未 被 引用 也 
未 被 修改 ， 首 先 选择 此 页 淘汰 ; (0，1) 最 近 未 被 使 用 ， 但 被 修改 ， 其 次 选择 ; (1， 
0) 最 近 使 用 而 未 修改 ， 再 次 选择 ; (1，1) 最 近 使 用 且 修 改 ， 最 后 选择 。 该 算法 与 时 钟 
算法 相 比 ， 可 进一步 减少 磁盘 的 /QO 操作 次 数 ， 但 为 了 查找 到 一 个 尽 可 能 适合 淘汰 的 页 

面 ， 可 能 需要 经 过 多 次 扫描 ， 增 加 了 算法 本 身 的 执行 开销 。 


【实现 】 页 面 置换 机 制 实现 (应 该 放 在 第 四 章 进程 


原理 : 页 面 置换 莫 法 
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【实现 】 页 面 置 换 机 制 实现 (应 该 放 在 第 四 章 
旦 管理 与 调度 ) 


[下 面 的 内 容 要 去 掉 ， 并 换 成 局 部 页 置换 的 实现 ] 


如 果 要 实现 页 面 置换 机 制 ， 只 考虑 页 面 置换 算法 的 设计 与 实现 是 远 远 不 够 的 ， 还 需 考 虑 其 他 
问题 : 


。 哪些 页 可 以 被 换 出 ? 

。 一 个 虚拟 的 页 如 何 与 硬盘 上 的 肩 区 建立 对 应 关系 ? 

。 何 时 进行 换 入 和 换 出 操作 ? 

。 在 proj7 的 基础 上 ， 如 何 设计 数据 结构 已 支持 页 面 置 换算 法 ? 
。 如 何 完成 页 的 换 入 换 出 操作 ? 


这 些 问 题 在 下 面 会 逐一 进行 分 析 。 注 意 ， 在 proj8 中 实现 了 换 入 换 出 机 制 ， 但 现在 还 没有 涉及 

a 面 置换 的 用 户 方 ) 和 内 核 线程 (完成 页 en ey 
以 还 无 法 通过 内 核 线程 机 制 实现 一 个 完整 意义 上 的 虚拟 内 存 页 面 置 换 功能 ， 并 给 用 户 进 程 提 

供 大 于 实际 物理 空间 的 虚空 间 。 这 要 等 到 |ab3 的 proj11 才 提供 上 述 支持 。 


可 以 被 换 出 的 页 


在 操作 系统 的 设计 中 ， 一 个 基本 的 原则 是 : 并 非 所 有 的 物理 页 epee 
到 用 户 空 间 且 被 用 户 程序 直接 访问 的 页 面 才能 被 交换 ， 而 被 内 核 直 接 使 用 的 内 核 空间 的 页 

不 能 被 换 出 。 这 里 面 的 原因 是 什么 呢 ? 操作 系统 是 执行 的 关键 代码 ， Se 
和 实时 性 ， 如 果 在 操作 系统 执行 过 程 中 ， 发 生 了 缺 页 现象 ， 则 操作 系统 不 得 不 等 很 长 时 间 
(硬盘 的 访问 速度 比 内 存 的 访问 速度 慢 2~3 个 数量 级 ) ， 这 将 导致 整个 系统 运行 低 效 。 而 且 ， 
不 难 想象 ， 处 理 缺 页 过 程 所 用 到 的 内 核 代 码 或 者 数据 如 果 被 换 出 ， 整 个 内 核 都 面临 前 溃 的 危 


RS 7 ， 我 们 只 是 实现 了 换 入 换 出 机 制 ， 还 没有 设计 用 户 态 执行 的 程序 ， 所 
以 我 们 在 proj8 中 仅仅 通过 执行 check ns ed 配 一 些 页 ， 模 拟 对 这 些 页 的 访问 ， 
然后 直接 调用 page_launder 元 数 来 查询 这 些 页 的 访问 情况 并 执行 页 面 置换 算法 换 出 “不 常用 ”的 
页 到 磁盘 上 。 


虚 存 中 的 页 与 硬盘 上 的 扇 区 之 间 的 映射 关系 


如 果 一 个 页 被 置换 到 了 硬盘 上 ， 那 操作 系统 如 何 能 简捷 来 表示 这 种 情况 呢 ? 在 ucore 的 设计 
上 ， 充 分 利用 了 页 表 中 的 PTE 来 表示 这 种 情况 : 当 一 个 PTE 用 来 描述 一 般 意 义 上 的 物理 页 

时 ， 显 然 它 应 该 维护 各 种 权限 和 映射 关系 ， 以 及 应 该 有 PTE_P 标记 ; 但 当 它 用 来 描述 一 个 被 
置换 出 去 的 物理 页 时 ， 它 被 用 来 维护 该 物理 页 与 swap 磁盘 上 扇 区 的 映射 关系 ， 并 且 该 PTE 
不 应 该 由 MMU 将 它 解 释 成 物理 页 映射 ( 即 没 有 PTE_P 标记 )， 与 此 同时 对 应 的 权限 则 交 由 
mm_struct 来 维护 ， 当 对 位 于 该 页 的 内 存 地 址 进行 访问 的 时 候 ， 必 然 导 致 #PF， 然 后 内 核能 
够 根据 PTE 描述 的 swap 项 将 相应 的 物理 页 重新 建立 起 来 ， 并 根据 庶 存 所 描述 的 权限 重新 设 
置 好 PTE 使 得 内 存 访问 能 够 继续 正常 进行 。 


如 果 一 个 页 (4KB/ 页 ) 被 置换 到 了 硬盘 某 8 个 遍 区 〈0.5KB/ 遍 区) ， 该 PTE 的 最 低位 -- 
present 位 应 该 为 0 (没有 PTE_P 标记 ) ， 接 下 来 的 7 位 暂时 保留 ， 可 以 用 作 各 种 扩展 ; 而 原 
来 用 来 表示 页 帧 号 的 高 24 位 地 址 ， 恰 好 可 以 用 来 表示 此 页 在 硬盘 上 的 起 始 扇 区 的 位 置 【《 其 从 
第 几 个 遍 区 开始 ) 。 为 了 在 页 表 项 中 区 别 0 和 swap 分 区 的 映射 ， 将 swap 分 区 的 一 个 page 
空 出 来 不 用 ， 也 就 是 说 一 个 高 24 位 不 为 0， 而 最 低位 为 0 的 PTE 表 示 了 一 个 放 在 硬盘 上 的 页 的 
起 始 扇 区 号 ( 见 swap.h 中 对 swap_entry t 的 描述 ) 


swap_entry_t 


24 bits 7 bits 1 bit 


考虑 到 硬盘 的 最 小 访问 单位 是 一 个 户 区 ， 而 一 个 启 区 的 大 小 为 512 (2^8) 字 节 ， 所 以 需要 8 个 
连续 扁 区 才能 放置 一 个 4KB 的 页 。 在 ucore 中 ， 用 了 第 二 个 IDE 硬 盘 来 保存 被 换 出 的 该 区 ， 根 
据 proj8 的 输出 信息 


Ld eal 262144(sectors), 'QEMU HARDDISK'.” 


我 们 可 以 知道 proj8 可 以 保存 262144/8=32768 个 页 ， 即 128MB 的 内 存 空间 。swap 分 区 的 大 小 
是 swapfs_init 里 面 根据 磁盘 驱动 的 接口 计算 出 来 的 ， 目 前 ucore 里 面 要 求 swap 磁盘 至 少 包 
含 1000 个 page， 并 且 至 多 能 使 用 八 <\<24 个 page 。 


swap.c 中 维护 了 全 局 的 mem_map 表 ， 用 来 记录 swap 分 区 的 使 用 ， 它 会 在 swap_init 里 面 
根据 swap 分 区 的 大 小 进行 适当 的 初始 化 。 表 中 的 每 一 项 是 一 个 unsigned short 类 型 的 整 
数 ， 用 来 记录 该 entry 的 引用 计数 。ucore 使 用 一 个 非常 大 的 整数 0xFFFF 表示 一 个 entry 

(这 里 entry 指 swap 分 区 上 连续 的 8 个 局 区 ) 是 空闲 的 《没有 被 分 配 出 去 ) ， 并 用 0xFFFE 
表示 一 个 entry 的 最 大 引用 计数 ， 通 常 一 个 页 不 会 有 这 么 大 的 引用 计数 ， 除 非 内 核 衣 了 。 当 一 
个 entry 的 引用 计数 是 0 的 时 候 ， 表 示 该 entry 是 可 以 被 回收 的 ， 但 是 我 们 通常 不 是 监 的 去 
回收 他 ， 只 有 当 需 要 分 配 一 个 entry， 并 且 在 mem_map 里 面 实在 找 不 到 空闲 的 entry 的 时 候 
才 会 去 回收 一 个 引用 计数 为 0 的 entry。 因 为 一 个 引用 计数 为 0 的 页 很 可 能 上 面 的 数据 和 对 应 
物理 页 上 的 数据 一 致 ， 这 样 在 换 出 该 页 的 时 候 就 可 以 避免 写 磁 盘 的 代价 ， 而 和 写 磁 盘 比 起 
来 ， 遍 历 mem_map 数组 的 时 间 开 销 总 是 会 小 很 多 。 


此 外 ， 为 了 简化 实现 ，swap 只 对 页 表 中 的 数据 页 进行 换 出 ， 即 只 对 PTE 进行 操作 ， 而 第 二 
级 页 表 是 保留 不 动 的 。 


执行 换 入 换 出 的 时 机 


check_mm_struct 是 在 lab2 里 面 用 来 做 模块 测试 时 使 用 的 临时 的 mm_struct。 在 lab3 以 后 
就 没有 用 处 了 。 在 proj8 中 ，check mm _ struct 变量 这 个 数据 结构 表示 了 目前 Ucore 认 为 合法 
的 所 有 虚拟 内 存 空间 集合 ， 而 mm 中 的 每 个 vma 表 示 了 一 段 地 址 连续 的 合法 虚拟 空间 。 当 
Ucore 或 应 用 程序 访问 地 址 所 在 的 页 不 在 内 存 时 ， 就 会 产生 #PF 异 常 ， 引 起 调用 do_pgfault 萄 
数 ， 此 函数 会 判断 产生 访问 异常 的 地 址 属于 check_mm_struct 某 个 vma 表 示 的 合法 虚拟 地 址 空 
闻 ， 且 保存 在 硬盘 swap 文 件 中 〈( 即 对 应 的 PTE 的 高 24 位 不 为 0， 而 最 低位 为 0) ， 则 是 执行 页 
换 入 的 时 机 ， 将 调用 swap_in_page 元 数 完成 页 面 换 入 。 


换 出 页 面 的 时 机 相对 复杂 一 些 ， 针 对 不 同 的 策略 有 不 同 的 时 机 。Ucore 目 前 大 致 有 两 种 策略 ， 
即 积极 换 出 策略 和 消极 换 出 策略 。 积 极 换 出 策略 是 指 操作 系统 周期 性 地 (或 在 系统 不 忙 的 时 
候 ) 主动 把 菜 些 认为 “不 常用 "的 页 换 出 到 硬盘 上 ， 从 而 确保 系统 中 总 有 一 定数 量 的 空 闪 页 存 
在 ， 这 样 当 需 要 空闲 页 时 ， 基 本 上 能 够 及 时 满足 需求 ; 消极 换 出 策略 是 指 ， 只 是 当 试 图 得 到 
空闲 页 时 ， 发 现 当 前 没有 空闲 的 物理 页 可 供 分 配 ， 这 时 才 开 始 查找 “不 常用 "页 面 ， 并 把 一 个 或 
多 个 这 样 的 页 换 出 到 硬盘 上 。 


在 proj8 中 ， 可 支持 上 述 两 种 情况 ， 但 都 需要 到 lab3/proj11 中 才 会 完整 实现 。 对 于 第 一 种 积极 
换 出 策略 ， 即 创建 了 一 个 每 隔 1 秒 执行 一 次 的 内 核 线程 Kswapd (在 lab3 的 proj11 中 第 一 次 出 
现 ) ， 实 现 积极 的 换 出 策略 。 对 于 第 二 种 消极 的 换 出 策略 ， 则 是 在 ucore 调 用 alloc_pages 函 数 
获取 空闲 页 时 ， 此 函数 如 果 发 现 无 法 从 页 分 配器 (比如 buddy system) 获得 空闲 页 ， 就 会 进 
一 步调 用 try_free_pages 来 唤醒 线程 kswapd， 并 将 cpu 让 给 kswapd 使 得 换 出 茶 些 页 ， 实 现 
一 种 消极 的 换 出 策略 。 


页 面 置换 算法 的 数据 结构 设计 


到 proj7 为 止 ， 我 们 知道 目前 表示 内 存 中 物理 页 使 用 情况 的 变量 是 基于 数据 结构 Page 的 全 局 变 
量 pages 数 组 ，pages 的 每 一 项 表示 了 计算 机 系统 中 一 个 物理 页 的 使 用 情况 。 为 了 表示 物理 页 
可 被 换 出 或 已 被 换 出 的 情况 ， 可 对 Page 数 据 结 构 进 行 扩 展 : 


Struct Page { 
uint32_t flags; // array of flags that describe the status of the page frame 
swap_entry_t index; // stores a swapped-out page identifier 

list_entry_t swap_link; // swap hash link 





首先 flag 的 含义 做 了 扩展 : 


// the page is in the active or inactive page list (and swap hash table) 
#define PG_swap 4 

// the page is in the active page list 

#define PG active 5 


前 面 提 到 swap.c 里 面 声明 了 全 局 的 mem_map 数据 结构 ， 用 来 存储 swap 分 区 上 的 页 的 使 用 
计数 。 除 此 之 外 ，swap.c 里 还 声明 了 两 个 链表 ， 分 别 是 active_list 和 inactive_list， 分 别 表 示 
已 经 分 配 了 swap entry 的 且 处 于 “活路 "状态 /不 活路 "状态 的 物理 页 链表 。 所 有 已 经 分 配 了 
swap entry 的 page 必须 处 于 两 个 链表 中 的 一 个 。 


当 一 个 物理 页 (struct Page) 需要 被 swap 出 去 的 时 候 ， 首 先 需要 确保 它 已 经 分 配 了 一 个 
swap entry。 如 果 page 数 据 结 构 的 flags 设置 了 PG swap 为 1， 则 表示 该 page 中 的 index 是 
有 效 的 swap entry 的 索引 值 ， 从 而 该 物理 页 上 的 数据 可 以 被 写 出 到 index 所 表示 的 swap 
page 上 去 。 


如 果 一 个 物理 页 在 硬盘 上 有 一 个 页 备份 ， 则 需要 记录 在 硬盘 中 页 备份 的 位 置 。Page 结 构 中 的 
index 就 起 到 这 个 记录 的 作用 ， 它 保存 了 被 换 出 的 页 的 页 表 项 PTE 高 24 位 的 内 容 一 entry， 即 硬 
盘 中 对 应 页 备份 的 起 始 悄 区 位 置 值 (以 字 节 为 单位 ?? 了 ?3)。 


Page 结 构 中 的 swap link 保 存 了 以 entry 为 hash 索 引 的 链表 项 ， 这 样 根据 entry， 就 可 以 快速 的 
对 page 数据 结构 进行 查找 。 但 hash 数 组 在 哪里 呢 ? 


对 于 在 硬盘 上 有 页 备份 的 物理 页 (简称 swap_page) ， 需 要 统一 管理 起 来 ， 为 此 在 proj8 中 增 
加 了 全 局 变量 : 


static list_entry_t hash_list[HASH_LIST_SIZE]; 





hashlist 数 组 就 是 我 们 需要 的 hash 数 组 ， 根 据 index(swap entry) 索引 全 部 的 swap page 的 指 
针 ， 这 样 通过 hash 苑 数 


#define entry_hashfn(x) (hash32(x, HASH_SHIFT)) 


可 以 快速 地 根据 entry 找 到 对 应 的 page 数据 结构 。 


正如 页 替换 算法 描述 的 那样 ， 把 "常用 "的 可 被 换 出 页 和 "不 常用 "的 可 被 换 出 页 分 别 集 中 管理 起 
来 ， 形 成 active_list 和 inactive_list 两 个 链表 。 ucore 的 页 面 置换 莫 法 会 根据 相应 的 准则 把 它 
认为 “常用 ”的 物理 页 放 到 active_ list 链表 中 ， 而 把 它 认为 "不 常用 "的 物理 页 放 到 inactive _ list 链表 
中 。 一 个 标记 了 PG_swap 的 页 总 是 需要 在 这 两 个 链表 之 间 移 动 。 


前 面 介绍 过 mem_map 数组 ， 他 是 用 来 记录 swap_page 的 引用 次 数 的 。 因 为 swap 分 区 上 的 
page 实际 上 是 某 个 物理 页 的 数据 备份 。 所 以 ， 一 个 物理 页 page 的 page_ref 与 对 应 
swap_page 的 mem_map[offset] (offset = swap_offset(entry)) 值 的 和 是 这 个 数据 页 的 丨 实 引 
用 计数 。page_ref 表示 PTE 对 该 物理 页 的 映射 的 个 数 ; mem_map 表示 PTE 对 该 swap 备份 


页 的 映射 个 数 。 当 page_ref 为 0 的 时 候 ， 表 示 物 理 页 可 以 被 回收 ; 当 mem_map[offset] 为 0 
的 时 候 ， 表 示 swap page 可 以 被 回收 (前面 介绍 过 ， 可 以 回收 ， 但 是 在 万 不 得 已 的 情况 下 才 
站 的 回收 ) 。 在 后 面 的 实验 中 还 可 能 涉及 到 ， 这 里 只 是 简单 了 解 一 下 。 


【注意 】 


ucore 目前 使 用 的 PIO 的 方式 读 写 IDE 磁盘 ， 这 样 的 好 处 是 ， 磁 盘 读 入 、 写 出 操作 可 以 认为 
是 同步 的 ， 即 当前 CPU 需 要 等 待 磁盘 读 写 完毕 后 再 进行 进一步 的 工作 。 由 于 磁盘 操作 相对 
CPU 的 速度 而 言 是 很 慢 的 ， 这 使 得 会 浪费 大 量 的 CPU 时 间 在 等 ID 操作 上 “。 于 是 我 们 总 是 希望 
能 够 在 IO 性 能 上 有 更 大 的 提升 ， 比 如 引入 DMA 这 种 异步 的 IO 机 制 ， 为 了 避免 后 续 开 发 上 
的 各 种 不 便 和 冲突 ， 我 们 假设 所 有 的 磁盘 操作 都 是 异步 的 (也 包括 后 面 的 实验 ) ， 即 使 目前 
是 通过 PIO 完成 的 。 


假定 某 page 的 flags 中 的 PG_swap 标志 位 为 1， 并且 PG _active 标 志 位 也 为 1， 则 表示 该 
page 在 swap 的 active_ list 中 ， 和 否则 在 inactive_ list 中 。 active_ list 中 的 页 表示 活跃 的 物理 
页 ， 即 页 表 中 可 能 存在 多 个 PTE 指向 该 物理 页 (这 里 可 以 是 同一 个 页 表 中 的 多 个 entry， 在 
后 面 lab3 的 实验 里 面 有 了 进程 以 后 ， 也 可 以 是 多 个 进程 的 页 表 的 多 个 entry) ; 反 过 来 ， 
inactive_list 链表 所 链接 的 page 通常 是 指 没有 PTE 再 指向 的 页 。 


【注意 】 
需要 强调 两 点 设计 因素 : 


1. 一 个 page 是 在 active_list 还 是 在 inactive_list 的 条 件 不 是 绝对 的 ; 
2. 只 有 inactive list 上 的 页 才 会 被 尝试 换 出 。 


这 两 个 设计 因素 的 设计 起 因 如 下 : 


1. 我 们 知道 一 个 page 换 出 的 代价 是 很 大 的 (磁盘 操作 ) ， 并 且 我 们 假设 所 有 的 磁盘 操作 都 
是 异步 的 ， 那 么 换 出 一 个 active 的 页 就 变 得 非常 不 值得 。 因 为 在 还 有 多 个 PTE 指向 他 情 
况 下 进行 换 出 操作 ( 弄 步 IO 可 能 导致 进程 切换 ) 的 较 长 过 程 中 ， 这 个 页 可 以 随时 被 其 它 
进程 写 脏 。 而 硬件 提供 给 内 核 的 接口 ( 即 页 表 项 PTE 的 dirty 位 ) 使 得 内 核 只 能 知道 一 个 页 
是 否 是 脏 的 (不 能 明确 知道 一 个 页 的 哪个 部 分 是 脏 的 ) ， 当 这 种 情况 发 生 时 ， 就 导致 了 
一 次 无 效 的 写 出 。 

2. active list 和 inactive_list 的 维护 只 能 由 与 swap 有 关 的 集中 操作 来 完成 。 特 别 是 在 
lab3/proj11 引 入 kswapd 内 核 线程 之 后 ， 所 有 的 内 存 页 换 出 任务 都 交 给 kswapd， 这 样 减少 
了 复杂 的 同步 互 矿 实现 〈 在 lab5 中 会 重点 涉及 ) 。 

3 页面 换 入 换 出 有 关 的 操作 需要 做 的 就 是 尽 可 能 的 完成 如 下 三 件 事 情 : 


o 将 PG swap 为 0 的 页 转变 成 PG swap 为 1 的 页 。 即 尽 可 能 的 给 每 个 物理 页 分 配 一 
个 swap entry (当然 前 提 是 有 足够 大 的 swap 分 区 ) 。 

o 将 页 从 active_list 上 移动 到 inactive_list 上 。 如 果 一 个 页 还 在 active_list 上 ， 说 明 还 
有 PTE 指向 此 “活跃 "的 物理 页 。 所 以 需要 在 完成 内 存 页 换 出 时 断 开 对 这 些 物 理 页 的 
引用 ， 把 它 变 成 不 活跃 的 (inactive) 。 只 有 把 所 有 的 PTE 对 茶 page 的 引用 都 断 开 


( 即 page 的 page_ref 为 0) 后 ， 就 可 以 将 此 page 从 active list 移动 到 inactive list 
让 8 

o 将 inactive list 上 的 页 写 出 并 释放 掉 。inactive list 上 的 page 表 示 已 没有 PTE 指向 此 
page 了 ， 那 么 该 page 可 以 被 释放 ， 如 果 该 page 被 写 过 ， 那 还 需 把 此 page 换 出 到 
swap 分 区 上 。 如 果 在 整个 换 出 过 程 ( 弄 步 10) 中 没有 其 他 进程 再 写 这 个 物理 页 ( 即 
没有 PTE 在 引用 它 或 有 PTE 引 用 但 页 没有 号 脏 ) ， 就 认为 这 个 物理 页 是 可 以 安全 释 
放 的 了 。 那 么 将 它 从 inactive_ list 上 取 下 ， 并 调用 page_free 函 数 实现 page 的 回 
收 。 

4. 值得 注意 的 是 ， 内 存 页 换 出 操作 只 有 特定 时 候 才 被 调用 ， 即 通过 执行 try 1 
数 或 者 定时 器 机 制 〈 在 lab3/proj10.4 才 引入 ) 定期 唤醒 kswapd 内 核 线程 。 这 样 会 导致 内 
存 页 换 出 操作 对 两 个 链表 上 的 数据 都 不 够 敏感 。 比 如 处 于 active _ list 上 的 page， 可 能 在 
kswapd 工作 的 时 候 ， 已 经 没有 PTE 再 引用 它 了 ; 再 如 相应 的 进程 退出 了 ， 并 且 相 应 的 
地 址 空间 已 经 被 内 核 回收 ， 从 而 i 一 个 inactive 的 page ; ee list 上 的 
page 也 可 能 在 换 出 的 时 候 ， 其 它 进程 通过 page fault， 又 将 PTE 指向 他 ， 进 而 变 成 一 个 
实际 上 active 的 页 。 所 以 说 ，active 和 inactive 条 件 并 不 绝对 。 


页 面 置换 算法 的 执行 逻辑 


其 实在 proj8 中 并 没有 完全 实现 页 面 置换 算法 ， 只 是 实现 了 其 中 的 部 分 关键 函数 ， 并 通过 
check_swap 来 验证 了 这 些 函 数 的 正确 性 。 直 到 lab3 的 proj11 才 形成 了 完整 的 页 面 置 换 逻 辑 ， 
而 这 个 页 面 置换 逻辑 基本 上 是 改进 的 时 钟 算 法 的 一 个 实际 扩展 版 本 。 


Ucore 采用 的 页 面 置换 算法 是 一 个 全 局 的 页 面 置 换算 法 ， 因 为 它 收集 了 Ucore 中 所 有 用 户 态 进 
程 (这 里 可 理解 为 os 运行 的 每 个 用 户 态 程序 ) 的 可 换 出 页 ， 并 把 这 些 可 换 出 页 中 的 一 部 
分 转换 为 空闲 页 次 它 考虑 了 页 的 访问 情况 (根据 PTE 中 PTE_A 位 的 值 ) 和 读 写 情况 ( 根 
en 。 如 果 页 被 访问 过 ， 则 把 PTE_A 位 清 零 继续 找 下 一 页 ; 如 果 页 没有 
被 访问 过 ， 这 此 页 就 成 为 了 active 状 态 的 可 换 出 页 ， 并 放 入 active_ list 链表 中 ， 这 时 需要 把 对 
应 的 PTE 转 换 成 为 一 个 swap entry( 高 24 位 保存 为 硬盘 缓存 页 的 起 始 扇 区 号 ，PTE_P 位 清 零 ) ; 
接着 refill inactive_scan 函 数 会 把 处 于 active 状 态 的 部 分 可 换 出 页 转换 成 inactive 状 态 ， 并 放 入 
inactive list 链表 中 ; 然后 page_launder 函 数 扫描 inactive list 中 的 处 于 inactive 状 态 的 可 换 出 

， 如 果 此 页 不 是 dirty 的 ， 则 ee 它 直 接 转 换 成 空 闪 页 ， 如 果 此 页 是 dirty 的 ， 则 执行 换 出 操作 ， 
ea 页 换 出 到 硬盘 上 保存 。 这 个 页 的 状态 变化 图 如 下 图 所 示 。 
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ucore 的 物理 页 状态 变化 图 


下 面具 体 讲 述 一 下 proj11 中 实现 上 述 置换 算法 的 页 面 置换 逻辑 。 在 proj11 中 同时 实现 了 积极 换 

出 策略 和 消极 换 出 策略 ， 这 都 是 通过 在 不 同 的 时 机 执行 kwapd_main 函 数 来 完成 的 。 当 ucore 

调用 alloc_pages 函 数 以 获取 空闲 页 ， 但 物理 页 内 存 分 配器 无 法 满足 请 求 时 ，alloc_pages 函 数 

将 调用 tre_free_pages 来 执行 kwapd_main 有 函数 〈 通 过 直接 唤醒 线程 的 方式 ， 在 lab3 中 会 进 一 

步 讲 解 ) ， 完 成 对 页 的 换 出 操作 和 生成 空闲 页 的 操作 。 这 是 一 种 消极 换 出 的 策略 。 另 外 ， 

Ucore 设 立 了 每 秒 执行 一 次 kwapd_main 函 数 AAA 在 lab3 中 会 
一 步 讲解 ) ， 完 成 对 页 的 换 出 操作 和 生成 空闲 页 的 操作 。 这 是 一 种 积极 换 出 的 策略 。 


kswapd_main 是 ucore 整 个 页 面 置换 算法 的 总 控 部 分 ， 其 大 致 思路 是 根据 当前 的 空闲 页 情况 查 
找 出 足够 多 的 可 换 出 页 (swap page) ， 然 后 根据 这 些 可 换 出 页 问 情况 确定 哪些 是 “ 常 
用 ”页 ， 哪 些 是 “不 常用 "页 ， 最 后 把 "不 常用 ”的 页 转换 成 空闲 页 。 思 路 简单 ， 但 具体 实现 相对 复 


杂 。 


如 前 所 述 ，swap 整个 流程 就 是 把 尽 可 能 多 的 page 从 变 成 PG_active 的 ， 并 移动 到 active list 
中 ;把 active list 中 的 页 尽 可 能 多 的 变 成 inactive list 中 页 ; 最 后 把 inactive list 的 页 换 出 ( 洗 
净 ) ， 根 据 情 况 处理 洗 净 后 的 page 结构 (根据 page ref 以 及 相应 的 dirty bit) 。 所 以 整个 过 
程 的 核心 是 尽 可 能 的 断 开 页 表 中 的 PTE 映射 。 


当 alloc_pages 执行 分 配 n 连续 物理 页 失败 的 时 候 ， 则 会 通过 调用 tree_free_page 来 唤醒 
kswapd 线 程 ， ws main 函 数 。kswapd 会 发 现 它 现在 压力 很 大 ， 需 要 尽 可 能 
的 满足 分 配 n 个 连续 物理 页 的 需求 。 既 然 需求 是 n 个 连续 物理 页 ， 那 么 kswapd 所 需要 释放 
的 物理 页 就 应 该 大 于 n 个 ;每 个 页 可 能 在 某 个 或 者 许多 个 页 表 的 不 同 的 地 方 有 PTE 映射 〈 特 
别 是 copy on write 之 后 ， 这 种 情况 更 为 普遍 ) ， 那 么 kswapd 所 需要 断 开 的 PTE 映射 就 远 远 
不 止 n 个 。Linux 实现 了 能 够 根据 physical address 在 页 表 中 快速 定位 的 数据 结构 ， 但 是 实现 
起 来 过 于 复杂 ， 这 里 Ucore 采用 了 一 个 比较 策 的 方法 ， 即 遍历 所 有 存在 的 页 表 结 构 ， 断 开 足 


够 多 的 PTE 映射 。 这 里 足够 多 是 个 经 验 公式 ， 采 用 n<<5 。 当 然 这 也 可 能 失败 ， 那 么 
kswapd 就 会 尝试 一 定 次 数 。 当 他 实在 无 能 为 力 的 时 候 ， 也 就 放弃 了 。 而 alloc_pages 也 会 不 
停 的 调用 try_free_pages 进行 尝试 ， 当 尝试 不 停 的 遭遇 失败 的 时 候 ， 程 序 中 会 有 许多 名 warn 
来 输出 这 些 调试 信息 。 而 Linux 的 方案 是 选择 一 个 占用 内 存 最 多 的 进程 杀 掉 并 释放 出 资源 ， 
来 尽 可 能 的 满足 当前 程序 的 需求 (注意 ， 这 里 当前 程序 是 指 内 核 服务 或 者 调用 ) ， 直 到 程序 
从 内 核 态 正常 退出 ; ucore 的 这 种 设计 显然 是 过 于 简单 了 ， 不 过 此 是 后 话 。 


扫描 页 表 是 一 项 艰巨 的 任务 ， 因 为 除了 内 核 空 间 ， 用 户 地 址 空间 有 将 近 3G 的 空间 ， 冀 正 的 程 
序 很 少 能 够 用 这 么 多 。 因 此 ， 充 分 利用 虚 存 管理 能 够 很 大 的 提升 扫描 页 表 的 速度 


接 下 来 ， 我 们 需要 介绍 一 下 kswapd_main 是 如 何 一 步 一 步 完 成 swap 的 操作 的 。 正 如 前 面 介 
绍 的 那样 ，swap 的 任务 主要 分 成 三 个 过 程 ， 


现在 我 们 来 介绍 以 下 kswap_main 是 如 何 一 步 一 步 完 成 swap 的 操作 的 。 正 如 前 面 介绍 过 
的 ，swap 需要 完成 3 件 事情 ， 下 面 对 应 的 是 这 三 个 操作 的 具体 细节 : 


1，kswapd_main 有 函数 通过 循环 调用 函数 swap_out mm 并 进一步 调用 Swap_out _vma， 来 查 
找 ucore 中 所 有 存在 的 虚 存 空间 ， 并 总 共 断 开 m 个 PTE 到 物理 页 的 映射 (这 里 需要 和 进 
程 的 概念 有 所 结合 ， 可 以 理解 为 每 个 用 户 程 序 都 拥有 一 个 自己 的 虚 存 空间 。 但 是 需要 提 
en 遇 到 上 庶 存 空间 在 多 个 进程 之 间 的 共享 ; 遍历 虚 存 空间 而 不 
是 遍历 每 个 进程 是 为 了 避免 菜 个 虚 存 空间 被 很 多 进程 共享 进而 被 kswapd 过 度 压 榨 所 带 
ee 度 压 榨 的 虚 存 空 sh 进程 共享 从 而 有 很 
高 的 概率 被 使 用 到 ， 最 终 必 然 会 导致 频繁 的 #PF， 给 系统 不 必要 的 负担 。 还 有 就 是 虽然 
swap 的 任务 是 断 开 m 个 PTE 映射 ， 但 是 实际 上 各 和 着 涉 这 省 间 都 一 次 至 多 提出 断 开 
32 个 映射 的 需求 ， 并 循环 遍历 所 有 的 虚 存 空间 直到 m 得 到 满足 。 这 样 做 的 目的 也 是 为 了 
保证 公平 ， 使 得 每 个 上 庶 存 空间 被 交换 出 去 的 页 的 几率 是 近似 相等 的 。Linux 实际 上 应 该 有 
更 好 的 实现 ， 它 根据 虚 存 空间 所 实际 使 用 的 物理 页 的 个 数 来 决定 断 开 的 映射 的 个 
数 。) 。 这 些 断 开 的 PTE 映射 所 指向 的 物理 页 如 果 没 有 PG _active 标记 ， 则 需要 给 他 分 
配 一 个 新 的 swap entry， 并 做 好 标记 ， 将 page 插入 到 active_list 中 去 (同时 也 插入 到 
Swap 的 哈 希 表 中 ) ， 然 后 设置 好 相应 的 page_ref 和 mem_map[offset] 的 值 ， 当 然 ， 如 
果 找 不 到 空闲 的 swap entry 可 以 分 配 (比如 swap 分 区 已 经 用 光 了 ) ， 我 们 只 能 跳 过 这 
样 的 PTE 映射 ， 从 下 一 个 地 址 继续 寻找 出 路 ; 对 于 原来 就 已 经 标记 了 PG_swap 的 物理 
页 ， 则 只 需要 完成 后 面 的 工作 ， 即 调整 引用 计数 就 足够 了 。 断 开 的 PTE 被 swap_entry 
取代 ， 并 取消 PTE_P 标记 ，， 这 样 当 出 现 #PF 的 时 候 ， 我 们 能 够 直接 根据 PTE 上 的 值 
得 到 该 页 的 数据 实际 是 在 swap 分 区 上 的 哪个 位 置 上 。 


现在 不 必要 计较 一 人 pe 究竟 是 放 在 active_list 还 是 放 在 inactive_list 中， 更 不 必要 考 

虑 换 出 这 样 的 操作 ， 这 一 阶段 的 工作 只 是 断 开 PTE 映射 ， 余 下 的 工作 后 面 会 一 步 步 完 

成 。 

当 kswapd 断 开 足够 数量 的 PTE 映射 以 后 ， 这 一 部 分 的 工作 也 就 完成 了 。 虚 存 管 理 中 维 

护 了 一 个 swap_address 的 地 址 ， 表 示 上 一 次 swap 操作 结束 时 的 地 址 ， 维 护 这 个 数据 是 
避免 每 次 swap 操作 都 从 虚 存 空间 的 起 始 地 址 开始 ， 从 而 导致 过 多 数量 的 重复 的 无 效 的 遍 


历 。 


当 kswapd 发 现 自己 竭尽 所 能 的 遍历 都 无 法 满足 断 开 m 个 链接 的 需求 时 ， 该 怎么 办 ?我 
们 需要 明确 的 是 swap 操作 的 主要 目的 是 释放 物理 页 ， 而 断 开 PTE 映射 是 一 个 必要 的 步 
又 ， 作 用 是 尽 可 能 的 扩大 inactive_list 中 page 的 个 数 ， 为 物理 页 的 换 出 提供 更 大 的 基数 
(操作 空间 ) ， 但 并 不 是 主要 过 程 。 所 以 为 了 防止 在 这 一 步 陷入 死 循环 ，kswapd_main 
最 多 会 对 全 部 虚 存 空间 的 链表 党 试 rounds=16 次 遍 。 


. 通过 page_launder 函数 ， 遍 历 inactive_list， 实 现 页 的 换 出 。 这 部 分 和 下 面 
refill_inactive_list 操作 的 先后 顺序 并 不 那么 严格 。 通 俗 的 解释 就 是 page_launder 实现 的 
是 把 inactive_list 中 的 page 洗 净 ， 并 完成 page 的 释放 ， 当 然 也 顺便 实现 了 把 实际 上 活 
路 的 (active) 的 page 从 inactive_list 上 取 下 ， 放 回 active_list 的 过 程 ; 而 

refill_ inactive_list 从 函数 名 上 可 以 看 出 ， 实 际 上 就 是 遍历 active_list， 把 实际 上 不 活跃 的 
(inactive) page 从 active list 上 取 下 ， 放 到 inactive list 上， 方便 下 一 轮 page_launder 
的 操作 。 后 者 没有 什么 需要 特别 强调 的 ， 但 是 page_launder 是 比较 复杂 的 过 程 ， 我 们 需 
要 仔细 的 分 析 一 下 。page_launder 先 检查 一 个 page 的 page_ref 是 否 != 0， 如 果 满 足 ， 
则 表示 该 page 实际 上 是 active 的 ， 则 把 它 移动 到 active_list 上 去 ; 如 果 不 是 ， 则 需要 对 
该 页 进行 换 出 操作 ， 过 程 如 下 : 注意 ， 下 面 讨论 的 是 以 page_ref == 0 作为 前 提 的 。 


(*) page_ launder 的 实现 ， 涉 及 ucore 内 核 代 码 设计 的 一 个 重要 假设 前 提 ， 这 是 第 一 次 涉 
及 ， 以 后 的 各 个 模块 也 会 逐步 大 量 涉 及 。 这 部 分 和 进程 调度 又 有 一 定 的 关联 ， 提 前 了 解 
一 下 ， 有 助 于 理解 这 部 分 以 后 后 续 其 它 部 分 的 代码 。 这 个 前 提 就 是 : Ucore 的 内 核 代码 是 
不 可 抢占 的 ， 也 就 是 ， 执 行 在 内 核 部 分 的 代码 ， 只 要 不 是 以 下 几 种 情况 ， 通 常 可 以 认为 
是 操作 不 会 被 抢占 (preemption) ， 即 CPU 控 制 权 被 剥夺 。1. 主 动 释放 cpu 执行 权限 ， 
比如 调用 schedule 让 其 它 程 序 执行 ; 2. 进行 同步 互 太 操作， 比如 争 抢 一 个 信号 量 、 锁 ; 
3. 进 行 磁盘 等 等 异步 操作 ， 由 于 kmalloc 有 可 能 会 调用 alloc_pages 来 分 配 页 ， 而 
alloc_pages 可 能 失败 进而 将 cpu 让 渡 给 kswapd， 所 以 ， 内 核 中 的 kmalloc 操作 可 以 认 
为 不 是 一 个 同步 的 操作 。 所 有 这 样 的 非 同步 的 操作 一 个 可 能 的 问题 ， 就 是 所 有 执行 比如 
kmalloc 这 样 的 函数 之 前 所 做 出 的 各 种 条 件 判 断 ， 在 kmalloc 之 后 可 能 都 不 再 成 立 了 。 


你 可 以 理解 下 面 两 段 程序 在 运行 时 的 差异 ， 其 中 list 是 一 个 全 局 变量 ， 并 且 可 能 被 任何 程 
序 在 执行 内 核 服务 的 时 候 修改 掉 : 


parta: 

if (!list_ empty(list)) { 
ptr = (uintptr_t)kmalloc(sizeof(uint32_t)); 
do_something(1list_ next(list), buffer); 
kfree(ptr); 


} 

partb: 

ptr = (uintptr_t)kmalloc(sizeof (uint32_t)); 

if (!list_ empty(l1ist)) { 
do_something(list_next(list), buffer); 


} 
kfree(ptr); 


除 此 之 外 ， 中 断 处 理 的 代码 也 需要 进一步 考虑 进来 。 当 内 核 尝试 修改 一 部 分 数据 的 时 

候 ， 如 果 该 数据 是 中 断 处 理 流程 可 能 访问 的 数据 ， 那 么 内 核 需要 对 这 次 修改 屏蔽 中 断 ; 
同 理 ， 如 果 中 断 处 理 需 可 能 修改 一 部 分 数据 ， 并 且 内 核 打算 尝试 读 取 该 数据 ， 那 么 内 核 
需要 对 读 操作 屏蔽 中 断 ， 等 等 。 


o 如 果 一 个 页 的 mem_map 项 也 为 0 : 前 面 已 经 讨论 过 mem_map 和 page _ref 之 间 的 
关系 。 如 果 此 时 ， 这 个 页 的 mem_map 项 也 为 0， 说 明 这 个 时 候 已 经 没有 PTE 映射 
指向 它们 了 ， 无 论 是 物理 页 还 是 swap 备份 页 。 那 么 这 个 页 也 就 没有 必要 洗 净 了 。 可 
以 直接 释放 物理 页 以 及 相应 的 swap entry 了 。 (同时 记得 处 理 swap 有 关 的 链表 ， 
以 下 不 再 资 述 ) 

o 如 果 一 个 页 的 mem_map 项 不 为 0， 但 是 没有 PG dirty 标记 : page 数据 结构 里 面 有 
PG_dirty 标记 ，swap 部 分 的 代码 根据 这 个 标记 来 判断 一 个 页 是 否 需要 被 洗 净 ( 写 到 
swap 分 区 上 ) 。 这 个 PG dirty 标记 在 什么 情况 下 设置 ， 我 们 稍 后 会 讨论 。 这 种 情 
况 可 以 等 价 为 物理 页 上 的 数据 和 swap 分 区 上 的 数据 是 一 致 的 ， 所 以 不 需要 洗 净 该 
页 ， 因 为 该 物理 页 本 身 就 已 经 足够 干净 了 。 所 以 可 以 安全 的 和 (1) 中 的 操作 一 样 对 该 
物理 页 进行 释放 。 

o 如 果 一 个 页 的 确 有 PG_dirty 标记 : 表示 该 页 需要 被 洗 净 。ucore 这 里 的 实现 存在 一 
个 bug， 最 新 的 代码 已 经 修复 了 这 个 bug， 不 过 bug 对 于 理解 这 段 代码 没有 影响 。 


先 清 楚 ， 洗 净 一 个 页 ， 需 要 调用 swapfs_write 函数 ， 完 成 将 物理 页 写 到 磁盘 上 的 操 
作 。 前 面 已 经 强调 过 ， 我 们 假设 所 有 磁盘 操作 是 异步 ID 。 先 明确 一 下 ， 当 前 的 状 
态 ，page_ref=0 &&mem_mapl=0 && PG dirty， 那 么 写 出 的 过 程 中 就 可 能 发 生 下 面 
许多 种 可 能 的 场景 : 
m swapfs_write 操作 失败 了 。 磁 盘 操 作 不 像 内 存 操作 ， 它 应 该 允许 发 生 更 多 的 错 
误 。 


其 它 进程 又 访问 到 相应 的 数据 页 ， 前 面 提 到 过 ， 因 为 PTE 已 经 被 修了 ， 所 以 会 
产生 #PF， 内 核 会 根据 PTE 的 内 容 在 swap hash 里 面 查 找到 相应 的 物理 页 ， 并 
将 它 重新 插入 到 相应 的 页 表 中 ， 并 更 新 该 page 的 page_ref 和 mem_map 的 


值 。 整 个 过 程 发 生 时 ，swapfs_ write 还 没有 结束 。 那 么 当 完 成 洗 净 一 个 页 的 操 
作 时 ( I 分 区 ) ，swap 部 分 的 代码 应 该 有 能 力 检测 出 这 种 变化 。 也 就 
是 在 swapfs_write 之 后 ， 需 要 再 判断 page_ref 是 否 依然 满足 inactive 的 。 


mn 和 b 类 似 ， 不 过 不 同 的 是 ， 这 次 对 物理 页 进行 的 是 一 个 写 操作 。 操 作 完 成 之 后 ， 
进程 又 将 该 PTE 指向 的 页 释放 掉 了 。 那 么 当 swapfs_write 返回 的 时 候 ， 它 面 对 
的 条 件 ， 可 能 就 变 成 了 page_ref=0 &&mem_map=0 &&PG dirty。 它 应 该 能 够 
处 理 这 个 变化 。 


@ 和 CC 类似， 不 同 的 是 ， 该 page 有 两 个 不 同 的 PTE 映射 。 那 么 在 swapfs_write 操 
作 之 前 ， 状 态 可 能 是 page_ref =0&&mem _map=2&IPG dirty， 那 么 当 c 中 的 情 
况 发 生 以 后 ， 该 物理 页 的 状态 就 可 能 变 成 了 
page_ref=0&mem_map=1&PG dirty 了 “。swap 应 该 能 够 处 理 这 种 变化 。 


综 上 所 述 ，page _launder 部 分 的 代码 变 得 相对 复杂 很 多 。 大 家 可 以 参照 程序 了 解 Ucore 是 怎 
么 解决 这 种 冲突 的 。 最 后 ， 提 及 一 下 那个 bug。 因 为 swapfs_write 是 异步 操作 ， 并 且 是 对 该 
page 的 操作 ，ucore 为 了 保证 在 操作 的 过 程 中 ， 该 页 不 被 释放 (比如 一 个 进程 通过 #PF， 增 
加 Page ref 到 1， 然 后 又 通过 释放 该 page 减 少 page_ref 到 0， 进 而 触发 内 核 执行 page _free 的 
操作 ) ， 分 别 在 swapfs_write 前 后 获得 和 释放 该 page 的 引用 
ref dec) 。 但 事实 证 明 ， 这 种 担 人 。 理 由 很 简单 ， 当 
page_launder 操作 一 个 页 的 时 候 ， 该 页 是 被 标记 PG_swap 的 ， 这 个 标记 一 方面 表示 page 
结构 中 的 index 有 意义 ， 另 一 方面 也 代表 了 ， 这 样 的 page 的 释放 ， 只 能 够 由 swap 部 分 的 代 
Bt (参见 pmm.c 以 及 后 面 shmem.c 的 处 理 ) 。 所 以 ，swap 在 操作 该 page 的 时 候 ， 
可 能 有 程序 能 够 调用 free_page 释 放 该 page。 


而 相反 的 ，mem_map 是 一 个 需要 保护 的 数据 。 这 个 是 产生 bug 的 地 方 ， 有 兴趣 的 同学 可 以 
去 自己 理解 一 下 。 


此 外 ， 可 以 翻阅 一 下 涉及 到 page_ref 修改 的 pmm 部 分 的 代码 ， 不 难 发 现 ， 当 一 个 page 从 
PTE 断 开 的 时 候 ， 也 就 是 page_ref 下 降 的 时 候 ， 内 核 会 根据 PTE 上 的 硬件 设置 的 PTE_D 
来 设置 PG_dirty。 其 实 这 就 足够 了 。 因 为 PG_dirty 并 不 需要 时 时 刻 刻 都 十 分 的 准确 ， 只 要 在 
swap 尝试 判断 该 page 是 否 需 要 洗 净 的 时 候 ，PG dirty 是 正确 的 ， 就 足够 了 。 所 以 只 需要 保 
证 每 次 page_ref 下 降 的 时 候 ，PG dirty 是 正确 的 即 可 。 除 此 之 外 ， 在 对 每 个 页 分 配 
swap_entry 的 时 候 ， 需 要 保证 标记 PG dirty， 因 为 毕竟 是 刚刚 分 配 的 ， 物 理 页 的 数据 还 从 来 
没有 写 出 去 过 。 


总 结 一 下 ， 页 换 入 换 出 的 实现 很 复杂 ， 但 是 相对 独立 。 并 且 正 是 由 于 Ucore 的 内 核 代 码 不 可 
抢占 使 得 实现 变 得 相对 容易 一 些 。 只 要 是 不 涉及 10 操作 ， 大 部 分 过 程 都 可 以 认为 处 于 不 可 抢 
各 的 内 核 执行 过 程 。 


proj9.1 : 实现 共享 内 存 


实现 共享 内 存 功 能 的 目的 是 为 将 来 (lab5 中 才 需 要 ) 不 同 进程 (process) 之 间 能 够 通过 共享 
内 存 实现 数据 共享 。 共 享 内 存 机 制 其 实 是 一 种 进程 间 通 信 的 手段 。proj9/proj9.1 完 成 了 不 同 页 
表 中 (目前 仅 局 限于 父子 进程 之 间 ,lab3 才 涉及 ) 的 虚拟 地 址 共享 同一 块 物理 地 址 空间 的 功 
能 。 由 于 目前 的 实现 仅 限 于 有 亲属 关系 的 进程 ， 这 实际 上 意味 着 这 些 具 有 共享 物理 地 址 空间 
的 虚拟 地 址 空间 也 是 相同 的 。 


相关 数据 结构 


部 分 的 具体 实现 工作 主要 在 kern/mm/shmem.[ch] 和 其 他 一 些 文件 中 。 根 据 前 面 的 分 析 ， 我 
i 层面 上 管理 了 基于 同一 个 页 表 的 vma 集 合 ， 这 些 集 合 表示 了 当前 可 “ 合 
法 ”使 用 (即使 没有 对 应 的 物理 内 存 ) 的 所 有 虚拟 地 址 空间 集合 。 当 前 的 vma_struct 定 义 如 
下 


struct vma_struct { 
struct mm_struct *vm_mm; 
uint32 t vm_ start; 
uint32_t vm_end; 
uint32_t vm_flags; 
vma_entry_t vma_link; 


}; 


这 个 是 proj9.1 以 前 的 vma_struct 结构 定义 。 由 于 vma 中 并 没有 描述 此 虚拟 地 址 对 应 的 物理 地 
址 空间 ， 所 以 无 法 确保 不 同 页 表 中 描述 同一 虚拟 地 址 空间 的 vma 指 向 同一 个 物理 地 址 空间 ， 所 
以 不 同 页 表 间 的 内 存 无 法 实现 共享 。 于 是 我 们 可 以 对 vma_struct 增 加 下 面 两 个 域 (field) 


struct shmem_struct *shmem; 
Size _t shmem_ off; 


shmem 的 作用 是 统一 维护 不 同 mm_struct 结 构 〈 即 不 同 页 表 ) 中 描述 具有 共享 属性 的 同一 虚 
拟 地 址 空间 的 唯一 物理 地 址 空间 。 如 果 vma->flags 里 面 有 VM_SHARE， 就 表示 vma- 
>shmem 有 意义 ， 他 指向 一 个 shmem_struct 结 构 的 指针 。shmem_struct 结 构 定义 如 下 : 


struct Shmem_struct { 





list_entry_t shmn_list,; 
shmn_t *shmn_cache; 
size _t len; 

atomic t shmem ref; 
lock_t shmem lock; 


shmem_struct 包 含 了 list_entry_t 结 构 的 shmn_list， 此 链表 的 元 素 是 shmn_t 结 构 的 共享 页 描述 
( — 页 的 信息 (page 或 者 swap entry) ， 为 了 维护 起 来 简便 ， 里 面 借用 了 页 表 
的 PTE 描 述 方式 ， 除 了 PTE_P 用 来 区 分 是 否 是 一 个 物理 页 以 外 ， 没 有 任何 其 它 权限 标记 ， 所 
以 后 面 提 到 的 PTE A ， 所 以 此 链表 就 是 用 来 存储 虚拟 地 址 空间 的 PTE 集 合 ， 
We 共享 的 虚拟 地 址 空间 对 应 的 唯一 的 物理 地 址 空间 的 映射 关系 。shmem_ref 指 出 了 当前 有 
进程 共享 此 共享 虚拟 空间 。shmn_t 是 用 来 描述 一 段 共享 虚拟 空间 的 信息 ， 可 理解 为 一 个 
shmem node 结 构 ， 其 定义 如 下 : 


typedef struct shmn_s { 
uintptr_t start; 
uintptr_t end; 
pte_t *entry; 
list_entry_t list_link; 
} shmn_t; 





在 这 个 结构 中 ，entry 保 存 了 一 块 (4KB) 连续 的 虚拟 空间 的 PTE 数 组 ， 可 以 理解 为 一 个 二 级 
页 表 ， 这 个 页 表 最 大 可 以 描述 4MB 的 连续 虚拟 空间 对 应 的 物理 空间 地 址 信息 。entry 和 
项 用 于 保存 physical address | PTE_P 或 者 swap_entry。 这 样 能 最 大 限度 节约 内 存 ， 并 且 能 
很 快 通 过 entry 项 计算 出 对 应 的 struct page 。 而 list_link 是 用 来 把 自身 连接 属于 同一 
shmem_struct 结 构 的 域 <shmn_list 链 表 ， 便 于 shmem_struct 结 构 的 变量 对 共享 空间 进行 管 

这 样 就 可 以 形成 如 下 图 所 示 的 共享 内 存 布局 : 
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创建 和 访问 共享 内 存 的 实现 逻辑 


为 了 创建 一 块 共 享 内 存 ， 首 先 需要 在 内 核 中 调用 do_shmem 函 数 (此 函数 要 到 lab3 的 proj12 才 
会 出 现 )，do_shmem 部 数 并 进一步 调用 shmem_create 函 数 创建 一 个 shmem_struct 结 构 的 变 
量 ， 然 后 再 调用 mm_map_shmem 有 函数 来 创建 一 个 vma 结 构 的 变量 ， 并 设置 vma 的 属性 为 
VM_SHARE， 并 把 vma->shmem 指 向 shmem 结 构 变 量 。 这 样 就 初步 建立 好 了 一 个 共享 内 存 虚 
拟 空 间 。 


由 于 并 没有 给 这 块 共享 内 存 虚 拟 空间 实际 分 配 物 理 空间 ， 所 以 在 第 一 次 访问 此 vma 中 某 地 址 
时 ， 会 产生 缺 页 并 (page fault ) ， 并 触发 do_pgfault 函 数 被 调用 。 此 函数 如 果 发 现 是 “ 合 

法 ”的 共享 内 存 虚 拟 空间 出 现 的 地 址 访问 错时 ， 将 调用 shmem 的 处 理 函 数 shmem_get_entry，; 
来 查找 此 共享 内 存 庶 拟 子 空间 所 在 的 其 他 虚拟 地 址 空间 中 同 的 页 表 ) 是 否 此 虚 地 址 
对 应 的 PTE 项 存在 ， 如 果 不 存 在 ， 则 表明 这 是 第 一 次 访问 这 个 共享 内 存 区 域 ， 就 可 以 创建 一 


个 物理 页 ， 并 在 shmn_s 的 entry 中 记录 虚拟 页 与 物理 页 的 映射 关系 ; 如 果 存 在 ， 则 在 本 虚拟 地 
址 空间 中 建立 此 虚 地 址 对 应 的 PTE 项 ， 这 样 就 可 以 确保 不 同 页 表 中 的 共享 虚拟 地 址 空间 共享 
一 个 唯一 的 物理 地 址 空间 。 


shmem 结 构 中 增加 一 个 计数 器 ， 在 执行 复制 某 庶 拟 地 址 空间 的 copy_mm 函 数 的 时 ， 如 果 
vm_flags 有 VM_SHARE， 则 仅 增 加 shmem 计数 器 shmem_ref， 而 不 用 再 创建 一 个 shmem 
变量 ; 同 理 ， 释 放 具有 共享 内 存 属性 的 vma 时 ， 应 该 减少 shmem 计 数 器 shmem_ref， 妆 
shmem 计 数 器 shmem_ref 减 少 到 0 的 时 候 ， 应 该 释放 shmem 所 占有 的 资源 。 


另外 ， 在 shmem 里 面 不 能 记录 地 址 ， 因 为 不 同 vma 可 能 map 到 不 同 的 地 址 上 去 ， 因 此 它 只 
维护 一 个 page 的 大 小 。 上 面 提 到 的 shmem_off 的 作用 是 定位 页 面 。 具 有 共享 属性 的 vma 创 
建 的 时 候 ，shmem_off = 0。 当 vma->vm_start 增加 的 时 候 (只 可 能 变 大 ， 因 为 内 核 不 支持 它 
减 小 ， unmap 的 时 候 可 能 导致 vma 前 面部 分 的 unmap， 这 就 可 能 会 让 vm_start 变 大 ) ， 应 
该 将 vm_start 的 增 量 赋 给 shmem_off， 以 保证 剩 下 的 shmem 能 够 访问 正确 的 位 置 。 这 样 在 
访问 共享 内 存 地 址 addr 发 生 缺 页 异常 的 时 候 ， 此 地 址 对 应 的 页 在 shmem_struct 里 面 的 PTE 
数组 项 的 索引 index 应 该 等 于 (addr - vma->vm_start + vma->shmem_off) / PGSIZE 


【注意 】 


在 页 换 出 操作 中 ， 尝试 换 出 一 页 的 条 件 是 页 的 page ref 到 0。 为 了 防止 share memory 的 
page 被 意外 的 释放 掉 ，shmem 结构 也 会 增加 相应 数据 页 的 引用 计数 。 那 么 对 于 一 个 share 
memory 的 数据 页 ， 是 不 是 就 不 能 换 出 了 ? 前 面 提 到 ， 页 换 出 操作 的 第 一 步 是 扫描 所 有 的 虚拟 
地 址 空间 ， 那 么 页 换 出 操作 就 完全 有 能 力 知道 当前 扫描 的 vma 是 普通 的 vma 还 是 对 应 的 
share memory 的 vma。 正 如 sWap.c 里 面 看 到 的 那样 ，swap 断 开 一 个 page 以 后 ， 如 果 发 现 
当前 vma 是 share memory 的， 并且 page ref 是 1， 那 么 可 以 确定 的 是 这 个 最 后 一 个 
page_ref 是 在 shmem 结构 中 。 那 么 Swap 也 同时 将 该 share memory 上 的 PTE 断 开 ， 就 满足 
了 page _launder 的 换 出 条 件 。 


share memory 上 的 entry 换 成 了 swap entry 带 来 的 坏处 也 很 明显 ， 因 为 标记 share 的 vma 
如 果 一 开始 没有 页 表 内 容 ， 需 要 通过 #PF 从 shmem 里 面 得 到 相应 的 PTE。 但 是 不 幸 的 是 ， 
得 到 的 是 swap entry， 那 么 只 能 再 通过 第 二 次 #PF， 才 能 将 swap entry 替换 成 数据 页 。 


proj9.2 : 实现 写 时 复制 


proj9.2 实 现 了 写 时 复制 (Copy On Write， 简 称 COW ) 的 主要 功能 ， 为 lab3 高 效 地 创 程 
打下 了 基础 。COW 有 何 作 用 ?这 里 又 不 得 不 提前 讲 讲 lab3 中 的 子 进程 创建 。 不 同 的 进程 应 该 
具有 不 同 的 物理 内 存 空间 ， 当 用 户 态 进 程 发 出 fork( ) 系 统 调用 来 创建 子 进程 时 ，Ucore 可 复制 
当前 进程 ( 父 、 的 整个 地 址 空间 ， 这 样 就 有 两 块 不 同 的 物理 地 址 空间 了 ， 新 复制 的 那 一 
块 物理 地 址 空间 分 配给 予 进程 。 这 种 行为 是 非常 耗 时 和 占 内 存 资 源 的 ， 因 为 它 需 要 为 子 进程 
的 页 表 分 配 页 面 ， ee 父 进 程 的 每 一 个 物理 内 存 页 。 如 果子 进程 加 载 一 个 新 的 程序 开始 执行 
(这 个 过 程 会 释放 掉 原 来 申请 的 全 部 内 存 和 资源 )， 这 样 前 面 的 复制 工作 就 白 做 了 ， 完 全 没有 必 
要 。 


为 了 解决 上 述 问 题 ，ucore 采 用 一 种 有 效 的 COW 机 制 。 其 设计 思想 相对 简单 : 父 进 程 和 子 进 
程 之 间 共 享 (share) 页 面 而 不 是 复制 (copy) 页 面 。 但 只 要 页 面 被 共享 ， 它 们 就 不 能 被 修 
改 ， 即 是 只 读 的 。 注 意 此 共享 是 指 父 子 进 程 共 享 一 个 表示 内 存 空 间 的 mm_struct 结 构 的 变量 。 
当 父 进程 或 子 进程 试图 写 一 个 共享 的 页 面 ， 就 产生 一 个 页 访问 异常 ， 这 时 内 核 就 把 这 个 页 复 
制 到 一 个 新 的 页 面 中 并 标记 为 可 写 。 注 意 ， 原 来 的 页 0 写 保 护 的 。 当 其 它 进程 试图 写 
入 时 ，Ucore 检 查 写 进程 是 否 是 这 个 页 面 的 唯一 属 主 (通过 判断 page_ref 和 
swap_page_count 即 mem_map 中 相关 entry 保存 的 值 人 为 1。 注 意 区 分 与 share 
memory 的 差别 ，share memory 通过 vma 中 的 shmem 实现 ， 这 样 的 page 是 直接 标记 为 共 
享 的 ， 而 不 是 copy on write， 所 以 也 没有 任何 冲突 ) ; 如 果 是 ， 它 把 这 个 页 面 标记 为 对 这 个 
进程 是 可 写 的 。 


在 具体 实现 上 ，ucore 调 用 dup_mmap 有 函数 ， 并 进一步 调用 copy_range 函 数 来 具体 完成 对 页 表 
内 容 的 复制 ， 这 样 两 个 页 表 表 示 同 一 个 虚拟 地 址 空间 (包括 对 应 的 物理 地 址 空间 ) ， 且 还 需 
修改 两 个 页 表 中 每 一 个 页 对 应 的 页 表 项 属性 为 只 读 ， 但 。 在 这 种 情况 下 ， 两 个 进程 有 两 个 页 
表 ， 但 这 两 个 页 表 只 映射 了 一 块 只 读 的 物理 内 存 。 同 理 ， 对 于 换 出 的 页 ， 也 采用 同样 的 办 法 
来 共享 一 个 换 出 页 。 综 上 所 述 ， 我 们 可 以 总 结 出 : 如 果 一 个 页 的 PTE 属 性 是 只 读 的 ， 但 此 页 
所 属 的 VMA 描 述 指出 其 虚 地 址 空间 是 可 写 的 ， 则 这 样 的 页 是 COW 页 。 


当 对 这 样 的 地 址 空间 进行 写 操作 的 时 候 ， 会 触发 do_pgfault 函 数 被 调用 。 此 函数 如 果 发 现 是 

COW 页 ， 就 会 调用 alloc_page 辑 数 新 分 配 一 个 物理 页 ， 并 调用 memcpy 辑 数 把 旧 页 的 内 容 复 
制 到 新 页 中 ， 并 最 后 调用 page_insert 函 数 给 当前 产生 缺 页 错 的 进程 建立 虚拟 页 地 址 到 新 物理 
页 地 址 的 映射 关系 〈 即 改写 PTE， 并 设置 此 页 为 可 读 写 ) 。 


里 还 有 一 个 特殊 情况 ， 如 果 产 生 访问 异常 的 页 已 经 被 换 出 到 硬盘 上 了 ， 则 需要 把 此 页 通过 
swap _in_page 函 数 换 入 到 内 存 中 来 ， 如 果 进 一 步 发 现 换 入 的 页 是 一 个 COW 页 ， 则 把 其 属性 设 
置 为 只 读 ， 然 后 异常 处 理 结束 返回 。 但 这 样 重新 执行 产生 异常 的 写 操作 ， 又 会 触发 一 次 内 存 
访问 异常 ， 则 又 要 执行 上 一 段 描述 的 过 程 了 。 


Page 结 构 的 ref 域 用 于 跟踪 共享 相应 页 面 的 进程 数目 。 只 要 进程 释放 一 个 页 面 或 者 在 它 上 面 执 
行 写 时 复制 ， 它 的 ref 域 就 递减 ; 只 有 当 ref 变 为 0 时 ， 这 个 页 面 才 被 释放 。 


进程 管理 与 调度 


“进程 ”( process) 是 20 世 纪 60 年 代 初 首先 由 MIT 的 MULTICS 系 统 和 |BM 公 司 的 CTSS/360 系 统 
率先 引入 的 概念 。 简 单 地 说 ， 进 程 是 一 个 正在 运行 的 程序 。 但 传统 的 程序 本 身 是 一 组 指令 的 
集合 ， 是 一 个 静态 的 概念 。 程 序 在 一 方面 无 法 描述 程序 在 内 存 中 的 动态 执行 情况 ， 即 无 法 从 
程序 的 字面 上 看 出 它 何 时 执行 ， 何 时 结束 ; 另 一 方面 ， 在 内 存 中 可 存在 多 个 程序 ， 这 些 程序 
分 时 复 用 一 个 CPU， 但 无 法 清楚 地 表达 程序 间 关 系 (比如 父子 关系 、 同 步 互 不 关系 等 )。 因 
此 ， 程 序 这 个 静态 概念 已 不 能 如 实 反 映 多 程序 并 发 执行 过 程 的 特征 。 

为 了 从 根本 上 描述 程序 动态 执行 过 程 的 性 质 ， 计 算 机 科学 家 引入 了 “进程 (Process) "概念 。 
在 计算 机 系统 中 ， 由 于 CPU 的 速度 非常 快 〈 现 在 的 通用 CPU 主 频 达到 2GHz 是 很 乎 常 的 事 
情 ) ， 只 让 它 做 一 件 事情 无 法 充分 发 挥 其 能 力 。 我 们 可 以 "同时 "运行 多 个 程序 ， 这 个 "同时 "， 
其 实 是 操作 系统 给 用 户 造成 的 一 个 “错觉 ”。 大 家 知道 ，CPU 是 计算 机 系统 中 的 硬件 资源 。 为 了 
提高 CPU 的 利用 滨 ， 在 内 存 中 的 多 个 程序 可 分 时 复 用 CPU， 即 如 果 一 个 程序 因 茶 个 事件 而 不 
能 继续 执行 时 ， 就 可 把 CPU 占 用 权 转 交 给 另 一 个 可 运行 程序 。 为 了 刻画 多 各 程序 的 并 发 执行 
的 过 程 ， 就 引入 了 “进程 "的 概念 。 从 操作 系统 原理 上 看 ， 一 个 进程 是 一 个 具有 一 定 独立 功能 的 
程序 在 一 个 数据 集合 上 的 一 次 动态 执行 过 程 。 操 作 系 统 中 的 进程 管理 需要 协调 多 道 程序 之 间 
的 关系 ， 解 决 对 处 理 器 分 配 调度 策略 、 分 配 实施 和 回收 等 问题 ， 从 而 使 得 处 理 器 资源 得 到 最 
充分 的 利用 。 

操作 系统 需要 管理 这 些 进 程 ， 使 得 这 些 进 程 能 够 公平 、 合 理 、 高 效 地 分 时 使 用 CPU， 这 需要 
操作 系统 完成 如 下 主要 任务 : 


e@ 进程 生命 周期 管理 : 创建 进程 、 让 进程 占用 CPU 执行 、 让 进程 放弃 CPU 执行 、 销 毁 进 


RW 


涅 ; 

。 进程 分 派 (dispatch ) 与 调度 (scheduling) : 设 定 进程 占用 /放弃 CPU 的 时 机 、 根 据 某 种 
策略 和 算法 选择 将 占用 的 CPU (这 就 是 调度 ) ， 完 成 进程 切换 ; 

e 进程 内 存 空间 保护 : 给 每 个 进程 一 个 受到 保护 的 地 址 空间 ， 确 保 进 程 有 独立 的 地 址 空 
闻 ， 不 会 被 其 他 进程 非法 访问 ; 

。 进程 内 存 空间 等 资源 共享 : 提供 内 存 等 资源 共享 机 制 ， 可 以 使 得 不 同 进程 可 共享 内 存 等 
资源 ; 

e。 系统 调用 机 制 : 给 用 户 进程 提供 访问 操作 系统 功能 的 接口 ， 即 系统 调用 接口 。 

本 章 内 容 主 要 涉及 操作 系统 的 进程 管理 与 调度 ， 并 能 够 利用 lab2 的 虚 存 管理 功能 实现 高 效 的 进 

程 中 的 内 存 管理 。 读 者 通过 阅读 本 章 的 内 容 并 动手 实践 相关 的 lab3 和 lab4 种 的 9 个 project 实 

验 : 

e。 Proj10 : 创建 进程 控制 块 和 内 核 线程 。 

e。 Proj10.1 : 实现 用 户 进程 、 读 和 加 载 ELF 格 式 执行 程序 、 一 个 简单 的 调度 器 ， 以 及 提供 创 
建 (fork) /execve (执行 ) /放弃 对 CPU 的 占用 (yield) 等 系统 调用 实现 。 


Proj10.2 : 完成 等 待 子 进程 结束 (wait) ， 杀 死 进程 〈kill) ， 进 程 自己 退出 (exit) 等 系 
统 调用 ， 从 而 完善 了 进程 的 生命 周期 管理 。 

Proj10.3 : 。 brk 系 统 调用 和 相应 的 用 户 进 程 内 存 管 理 ， 从 而 与 lab2 的 内 存 管 理 进 
一 步 联合 在 一 

Proj10.4 : 人 以 睡眠 和 被 唤醒 。 

Proj11 : 创建 kswapd 内 核 线 程 来 专门 处 理 内 存 页 的 换 入 和 换 出 。 

Proj12 : 基于 进程 间 内 存 共 享 (proj9.1) 实现 父子 进程 数据 共享 ， 并 实现 了 用 户 态 的 线 
程 机 制 。 

Proj13 : 设计 实现 了 通用 的 调度 器 框架 

Proj13.1/Proj13.2 : 在 通用 调度 器 框架 下 实现 了 轮转 ud oo ，RR) 调度 器 /多 级 
反馈 队列 (Multi Level Feedback Queue ，MLFQ) 调度 器 


可 以 掌握 如 下 知识 : 
e 与 操作 系统 原理 相关 
e@ 进程 管理 : 进程 状态 和 进程 状态 转换 
e。 进程 管理 : 进程 创建 、 进 程 删 除 、 进 程 阻塞、 进程 唤醒 
e@ 进程 管理 : 父子 进程 的 关系 和 区 别 
e@ 进程 管理 : 进程 中 的 内 存 管理 
e@ 进程 管理 : 用 户 进程 、 内 核 进 程 、 用 户 线 程 、 内 核 线程 的 关系 区 别 
e。 进程 管理 : 线程 的 特征 和 实现 机 制 


本 章 


进程 调度 : 进程 调度 算法 

操作 系统 原理 之 外 

页 面 换 入 换 出 的 内 核 线程 实现 技术 
父子 进程 数据 共享 实现 

通用 的 调度 器 框架 

进程 切换 的 实现 细节 


内 容 中 主要 涉及 进程 管理 的 重要 功能 主要 有 两 个 : 


进程 生命 周期 的 管理 : 如 何 高 效 地 创建 进程 、 切 换 进 程 、 删 除 进 程 和 管理 进程 对 资源 的 
需求 ( e 存 和 CPU) 涉及 一 系列 的 动态 管理 机 制 。 线 程 的 如 入 使 得 整个 系统 的 执行 效率 
更 高 ， 人 点 设计 与 进程 不 同 、 

进程 调度 算法 : 进程 调度 (部 分 教科 书 也 称 为 处 理 器 调度 ) 算法 主要 是 选择 响应 时 间 决 
定 应 该 由 哪个 进程 占用 CPU 来 执行 。 这 里 需要 确保 通过 调度 来 提高 整个 系统 的 吞吐 量 和 
减少 响应 时 间 。 


为 了 让 读者 能 够 从 实践 上 来 理解 进程 管理 和 调度 的 基本 原理 ， 我 们 设计 了 上 述 实验 ， 主 要 的 


功能 


逐步 实现 如 下 所 示 : 


首先 需要 能 够 对 运行 的 程序 进行 管理 ， 这 需要 一 个 “档案 *， 进 程控 制 块 (Process Control 
Block) ; 
有 了 进程 控制 块 ， 我 们 就 可 以 实现 不 同 特点 的 进程 或 线程 ， 这 里 首先 实现 了 相对 简单 的 


内 核 线程 ; 
为 了 能 够 执行 应 用 程序 ， 
唤醒 进程 ， 从 而 能 够 对 用 户 进程 的 整个 生命 周期 进行 全 程 管理 ; 

由 于 在 内 存 中 有 多 个 进程 ， 但 只 有 一 个 CPU， 所 以 需要 设计 合理 的 调度 器 ， 让 不 同 进程 


能 够 分 时 复 用 CPU， 从 而 提高 整个 系统 的 乔 吐 量 和 减少 响应 时 间 。 


还 需 通过 进程 控制 块 实现 用 户 进 程 的 管理 ， 能 够 创建 /删除 /阻塞 / 


AN 一 - AN 
创建 并 执行 内 核 线程 
实验 目标 
i terse oR Vee Wt Wa Wt re eo et pd 
分 配合 适 的 空间 了 。 接 下 来 就 需要 考虑 如 何 使 用 CPU 来 “并 发 "执行 多 个 程序 。 


操作 系统 把 一 个 程序 加 载 到 内 存 中 运行 ， 这 个 运行 的 程序 会 经 历 从 “出 生 ” 到 "死亡 ”的 整个 “ 生 
命 " 历 程 。 这 个 运行 程序 的 整个 执行 过 程 就 是 进程 。 为 了 记录 、 描 述 和 管理 程序 执行 的 动态 变 

化 过 程 ， 需 要 有 一 个 数据 结构 ， 这 个 就 是 进程 控制 块 。 一 个 进程 与 一 个 进程 控制 块 一 一 对 

应 。 为 此 ，Ucore 就 需要 建立 合适 的 进程 控制 块 数据 结构 ， 并 基于 进程 控制 块 来 完成 对 进程 的 

管理 。 


proj10 概 述 


实现 描述 


project10 是 lab3 的 第 一 个 项 目 ， 它 基于 lab2 的 最 后 一 个 项 目 proj9.2 。 i 
制 块 的 数据 结构 ， 并 基于 进程 控制 块 实现 了 对 进程 的 初步 管理 。 并 通过 创建 两 个 内 核 线程 
idleproc 和 init_ main 来 实现 了 对 CPU 的 分 时 使 用 。 


项 目 组 成 


广 一 process 


| 一 entry.S 
| 一 proc.c 
一 proc.h 


[一 switch.s 
-一 Schedule 

| 一 sched.c 

-一 sched.h 
| 一 sync 

[一 sync .h 
— trap 


| 一 trap.c 








14 directories, 77 files 


相对 与 proj9.2，proj10 增 加 了 7 个 文件 ， 修 改 了 相对 重要 的 3 个 文件 。 主 要 修改 和 增加 的 文件 
如 下 : 


e process/proc.[ch] : 实现 了 进程 控制 块 的 定义 和 基于 进程 控制 块 的 各 种 进程 管理 函数 ， 实 
现 了 对 进程 生命 周期 管理 的 绝 大 部 分 功能 。 

。 process/entry.S : 内 核 线程 的 起 始 入 口 处 和 结束 处 理 (通过 调用 do exit 完 成 实际 结束 工 
作 ) 。 

e process/switch.S : 实现 了 进程 上 下 文 (context) 切换 的 函数 switch_to， 由 于 与 硬件 相 
关 ， 所 以 直接 采用 汇编 实现 。 

。 schedule/sched.[ch] : 实现 了 一 个 先进 先 出 (First In First Out) 策略 的 进程 调度 。 

。 trap/trap.c,trapentry.S : 

e unistd.h : 定义 了 一 系列 系统 调用 号 ， 为 后 续 用 户 进程 访问 内 核 功能 做 准备 ， 这 里 暂时 用 
不 上 。 


编译 并 运行 proj10 的 命令 如 下 : 


make 
make qemu 


则 可 以 得 到 如 下 显示 界面 


thuos:~/oscourse/ucore/i386/1ab3_process/proj1i0$ make qemu 


(THU. 


Spec 
entr 
etex 
edat 
end 
Kern 
chec 
chec 
++ S 
this 


To U: 
To U: 


kern 
proc 


Welc 


Type 
K> 


从 上 图 可 以 看 到 


CST) os is loading ... 


ial kernel symbols: 

y 0xc010002c (phys) 

t QOxc0113bd7 (phys) 

Oxc01i3fabo (phys) 
Oxc0144e74 (phys) 

executable memory footprint: 


a 


el 276KB 


k_mm_shm_swap: step2, dup_mmap ok. 
k_mm_shm_swap() succeeded. 

etup timer interrupts 

initproc, name = "init" 
"Hello 
en 


pid = 1, 
world!!". 
Bye, 


Bye. :)" 
el panic at kern/process/proc.c:317: 


ess exit!!. 


ome to the kernel debug monitor!! 
'help' for a list of commands. 


ain 函 数 完成 了 其 主要 的 工作 ， 即 输出 了 一 些 信 息 : 


this 


To U: 
To U: 
然后 就 “死亡 ”了 ， 所 占用 的 资源 被 回收 。 由 于 现在 没有 其 他 值得 执行 的 线程 ， 所 以 ucore 就 进入 到 kernel debug m 
“ 需 在 4K>” 提 示 符 后 面 输入 backtrace， 就 可 得 到 如 下 输 


onitor 了 。 到 底 是 在 哪里 判断 并 进入 monitor 的 呢 ? 我 们 只 
出 是 
K> backtrace 
ebp:0xc7eboee8 elip:0xc0o0101c86 args:0x00000000 0x00000000 9xc7ebof68 
kern/debug/kdebug.c:298: print_stackframe+21 
ebp:0xc7eboef8 elip:0xc010258b args:0x00000000 0xc7ebof1c 0x00000000 
kern/debug/monitor.c:147: mon_backtrace+10 
ebp:0xc7ebof68 elip:0xc0102489 args:0xcog13facg Ox00000000 QOxc011784a 
kern/debug/monitor.c:93: runcmd+134 
ebp:0xc7ebof98 elip:0xc0o010250d args:0x00000000 QOxc7ebofdc 0x0000013d 
kern/debug/monitor.c:114: monitor+91 
ebp:0xc7ebofc8 elip:0xc0o102b2f args:0xc0117825 0x0000013d QOxc0117839 
kern/debug/panic.c:30: panic+106 
ebp:0xc7ebofe8 elip:0xc0o112bc7 args:0x00000000 Oxc01178b8 0x00000000 
kern/process/proc.c:317: do_exit+33 
K> 
这 里 可 以 清楚 的 看 到 ， 在 proc.c 的 317 行 (do_exit 元 数 内 ) 调用 了 panic 函 数 ， 导 致 进入 了 
monitor 。idleproc 和 initproc 是 ucore 里 面 两 个 特殊 的 内 核 线程 ， 
以 do_exit 里 面 直接 调用 panic 了 ， 对 于 其 
要 做 ， 后 续 章 节 会 进一步 讲 到 。 ee 过 程 其 实 包含 了 对 进程 整个 生命 


我 们 将 从 原理 和 实现 两 个 方面 对 此 进行 


initproc, pid = 1, name = "init" 


"Hello world!!". 
"en.., Bye, 


Bye. :)" 


一 步 阔 述 。 


，proj10 创 建 了 一 个 内 核 线程 init_main， 然 后 启动 内 核 线程 initproc 运 行 


， 此 线程 调用 init_m 


Oxc0102489 


0Xx00000000 


Oxc7ebofdc 


Oxc7ebofcc 


Oxc0O144e44 


0Xx00000010 


它们 是 不 允许 退出 的 ， 所 
普通 的 进程 而 言 ，do_exit 实际 上 还 有 很 多 工作 
周期 的 管理 。 下 面 


实验 1: 创建 并 执行 内 核 线程 


189 


【原理 】 进 程 的 属性 与 特征 解析 


为 了 让 多 个 程序 能 够 使 用 CPU 执行 任务 ， 我 们 需要 设计 进程 控制 块 ， 需 要 进一步 管理 进程 。 
但 到 底 如 何 设计 进程 控制 块 ， 如 何 管理 进程 ?如 果 我 们 对 进程 的 属 ， a ， 风 无 
法 有 效 地 设计 进 程控 制 块 和 实现 进 程 管理 9 


再 一 次 回 到 进程 的 定义 : 一 个 具有 一 定 独立 功能 的 程序 在 一 个 数据 集合 上 的 一 次 动态 执行 过 
程 。 这 里 有 四 个 关键 词 : et ea na 度 来 看 ， 所 谓 
程序 就 是 一 段 特定 的 指令 机 器 码 序列 而 已 。CPU 会 一 条 一 条 地 取出 在 内 存 中 程序 的 指令 并 按 
照 指令 La 
么 这 个 数据 集合 和 执行 其 实体 现 了 进程 对 资源 的 占用 。 动 态 执 行 过 程 体现 了 程序 执行 的 不 
同 “ 生 命 ?阶段 : 诞生、 工作、 休息/ 等 待 、 死 亡 。 如 果 这 一 段 指令 执行 完毕 ， 也 就 意味 着 进 和 
结束 了 。 从 开始 执行 到 执行 结束 是 一 个 进程 的 全 过 程 。 那 么 2 系统 需要 管理 进程 的 什么 
如 果 计 算 机 系统 中 只 有 一 个 进程 ， 那 操作 系统 的 工作 就 简单 了 。 其 实 就 是 管理 进 程 执行 的 指 
令 ， 进 程 占用 的 资源 ， 进 程 执 行 的 状态 。 这 可 归 2 ee 的 管理 工作 。 但 实际 上 在 
计算 机 系统 的 内 存 中 ， 可 以 放 很 多 程序 ， 这 也 就 意味 着 操作 系统 需要 管理 多 个 进程 ， 那 么 
还 需要 做 有 关 进 程 间 的 其 他 管理 工作 包括 : 进程 调度 、 进 程 间 的 数据 共享 、 进 程 间 执 行 的 同 
步 互 斥 关 系 (lab5 涉 及 ) 等 。 下 面 逐 一 进行 解析 。 


指令 执行 安全 管理 


CPU 的 指令 有 一 般 指 令 和 特权 指令 ， 那么 由 不 包含 特权 指令 的 一 般 指 令 集 合 组 成 了 用 户 
程序 ， a 
同 的 特权 模式 : 用 户 态 模式 和 核心 态 模 式 ， 在 用 户 态 模 式 只 能 执行 一 般 指令 ， 在 核心 态 模 式 
除了 可 以 执行 一 般 指 令 外 ， 还 可 以 执行 特权 指令 。 如 果 这 里 的 程序 是 指 的 一 般 应 用 程序 或 用 
户 程序 ， 不 是 操作 系统 ， 那 么 ee et 
为 用 户 进 程 。 如 果 这 里 的 程序 指 的 是 操作 系统 ， 那 么 我 们 把 在 CPU 处 于 核心 态 特权 模式 下 的 
A en de en 
下 也 有 类 型 ， 可 以 分 为 用 户 态 内 存 和 核心 态 内 存 ， 这 两 种 内 存 形成 了 CPU 可 能 访问 的 所 有 内 
闻 。 内 核 进程 可 以 干 任何 事情 ， 所 以 对 于 各 种 内 存 ， 各 种 指令 ， 它 都 能 访问 和 执行 。 用 
进程 和 内 核 进程 对 内 存 和 指令 的 权限 如 下 所 示 : 


CPU 特权 模 S 本 身 的 用 其 他 进程 的 ;核心 态 内 ;一 般 指 令 特权 指令 
式 户 态 内 存 “用 户 态 内 存 ， 存 
用 户 ， 用户 态 模式 可 访问 不 可 访问 不 可 访问 ， 可 执行 执行 无 效 
进程 
内 核 “核心 态 模式 .可 访问 可 访问 可 访问 可 执行 可 执行 


进程 


用 户 进程 本 身 要 完成 的 工作 细节 由 一 条 一 条 指令 具体 体现 。 对 于 一 般 指 令 完成 “合法 "的 ， 
操作 系统 不 用 管理 。 操 作 系统 要 管理 的 是 用 户 进程 的 非法 "指令 。 简 单 地 说 ，" 非 法 "指令 
括 : 特权 指令 、 引 起 异常 的 一 般 指 令 (比如 除 零 操作 ) 和 访问 不 属于 它 的 内 存 空间 。 


而 且 操 作 系 统 会 在 用 户 进程 执行 前 ， 设 置 一 个 用 户 进程 执行 的 用 户 态 环境 ， 即 如 果 程 序 的 指 

令 流 一 开始 执行 ， 操 作 系 统 就 让 CPU 处 于 用 户 态 特权 模式 。 而 且 还 要 分 配 一 定 的 物理 空间 ， 
建立 页 表 ， 给 进程 一 个 用 户 态 虚 拟 内 存 空间 ， 这 样 一 个 用 户 态 进 程 就 可 以 在 这 个 限定 的 虚拟 
内 存 空间 中 正常 执行 一 般 指 令 了 。 一 旦 用 户 进程 执行 了 “非法 "指令 ， 则 CPU 会 产生 措 常 ，CPU 
使 用 权 将 转 到 操作 系统 中 ， 从 而 让 操作 系统 能 够 对 执行 “非法 "指令 的 用 户 进 程 进 行 管理 ， 比 如 
让 进程 退出 、 给 进程 分 配 更 大 的 内 存 空 间 等 。 这 样 操作 系统 能 够 确保 用 户 进程 在 执行 过 程 中 
无 法 破坏 在 内 存 中 的 其 他 用 户 进程 和 操作 系统 本 身 。 


资源 管理 


在 计算 机 系统 中 ， 进 程 会 占用 内 存 和 CPU， 这 都 是 有 限 的 资源 ， 如 果 不 进 行 合理 的 管理 ， 资 
源 会 耗 尽 或 无 法 高 效 公 平地 使 用 ， 从 而 会 导致 计算 机 系统 中 的 多 个 进程 执行 效率 很 低 ， 甚 至 
由 于 资源 不 够 而 无 法 正常 执行 。 


对 于 用 户 态 进程 而 言 ， 操 作 系 统 是 它 的 “+ 上帝 ”， 操作 系统 给 了 用 户 态 进程 可 以 运行 所 需 的 资 
源 ， 最 基本 的 资源 就 是 内 存 和 CPU。 在 lab2 中 涉及 的 内 存 管 理 方法 和 机 制 可 直接 应 用 到 进 帮 
的 内 存 资 源 管理 中 来 。 CA 情况 下 ， 对 于 CPU 这 种 资源 ， 则 需要 通过 进程 调 

度 来 合理 选择 一 个 进程 ， 并 进一步 通过 进程 分 派 和 进程 切换 让 不 同 的 进程 分 时 复 用 CPU， 执 
行 各 自 的 工作 。 进 程 调度 的 核心 是 各 种 进程 调度 算法 ， 而 调度 算法 的 评价 指标 是 高 效 、 合 
a ean 另外 ， 对 于 无 法 剥夺 的 共享 资源 ， 如 果 资 源 管理 
不 当 ， 多 个 进程 会 出 现 死 锁 或 饥饿 现象 


状态 心志 


同 的 状态 (也 可 理解 为 “生命 "的 不 同 阶段 ) ， 当 操作 系统 把 程序 的 放 到 内 存 中 
2 ， 这 个 进程 就 “诞生” 了， 不 过 还 没有 开始 执行 ， 但 已 经 消耗 了 内 存 资源 ， 处 于 “创建 ”状态 ; 
Se 资源 ， 就 等 能 够 使 用 CPU 时 ， 进 程 处 于 "就绪" 状态 ; 当 进 程 终 于 占用 CPU ， 
eA pi 时 候 ， 这 个 进程 就 进入 了 “工作 ”状态 ， 也 称 “ 运 行 " 状 态 ， 这 
时 除了 进一步 占用 内 存 资 源 外 ， 还 占用 了 CPU 资源 ; 当 这 个 进程 等 待 某 个 资源 而 无 法 继续 执 
行 时 ， ps ， 即 释放 CPU 资源 ， 进 入 “等 待 " 状 态 ; 当 程序 指令 执行 完毕 ， 进 程 
进入 了 “死亡 ”状态 。 


这 些 状 态 的 转换 时 机 需要 操作 系统 管理 起 来 ， 而 且 进 程 的 创建 和 清除 等 工作 必须 由 操作 系统 
提供 ， 而 且 从 “运行 " 态 a 的 转换 ， 涉 及 到 保存 和 恢复 进程 的 “执行 现 
场 *， 也 成 为 进程 上 下 文 ， 这 是 确保 进程 即使 “断断续续 ”地 执行 ， 也 能 正确 完成 工作 的 必要 保 
证 。 


系统 调用 


操作 系统 把 用 户 进程 现在 在 用 户 态 特权 模式 下 执行 ， 这 使 得 用 户 进程 无 法 完成 各 种 重要 的 工 
作 ， 上 比如 获取 内 存 、 访 问 硬 盘 内 容 等 。 为 了 解决 这 个 问题 ， 用 户 进程 可 通过 执行 系统 调用 来 
通知 操作 系统 帮助 它 来 完成 这 些 需要 在 特权 态 下 才能 执行 的 重要 工作 。 执 行 系 统 调用 会 使 得 
CPU 从 用 户 态 特权 模式 切换 到 核心 态 特 权 模 式 ， 在 用 户 进 程 的 用 户 态 执行 现场 (用户 态 进程 
运行 上 下 文 ) 也 需要 保存 在 操作 系统 中 ， 当 操作 系统 完成 用 户 进程 请 求 的 工作 后 ， 还 需 根据 
保存 的 用 户 态 执 行 现场 恢复 用 户 进程 的 正常 执行 。 


进程 与 线程 
= ee 的 的 虚拟 地 址 空间 以 及 其 他 资源 。 一 个 进程 基于 程序 的 指 
令 流 执行 ， 其 执行 过 程 可 能 与 其 它 进程 的 执行 过 程 交 替 进 行 。 ee 


行 态 、 就 绪 态 等 ) 的 进程 Se， 系统 调度 并 分 派 的 单位 。 在 大 多 数 操作 系统 中 ， 
个 特点 是 进程 的 主要 本 质 特 征 。 但 这 两 个 特征 相对 独立 ， 操 作 系 统 可 以 把 这 两 个 特征 分 别 进 
行 管理 。 


这 样 可 以 把 拥有 资源 所 有 权 的 单位 通常 仍 称 作 进程 ， 对 资源 的 管理 成 为 进程 管理 ; 把 指令 执 
行 流 的 单位 称 为 线程 ， 对 线程 的 管理 就 是 线程 调度 和 线程 分 派 。 对 属于 同一 进程 的 所 有 线程 

言 ， 这 些 线程 共享 进程 的 虚拟 地 址 空间 和 其 他 资源 ， 但 每 个 线程 都 有 一 个 独立 的 栈 ， 还 有 
独立 的 线程 运行 上 下 文 用 于 包含 表示 线程 执行 现场 的 寄存 器 值 等 信息 。 


在 多 线程 环境 中 ， 进 程 被 定义 成 资源 分 配 与 保护 的 单位 ， 与 进程 相关 联 的 信息 主要 有 存放 进 
程 映像 的 虚拟 地 址 空间 等 。 在 一 个 进程 中 ， 可 能 有 一 个 或 多 个 线程 ， 每 个 线程 有 线程 执行 状 
态 (运行 、 就 绪 、 死 亡 等 )， 保 存 上 次 运行 时 的 线程 上 下 文 、 线 程 的 执行 栈 等 。 考 虑 到 CPU 
有 不 同 的 特权 模式 ， 参 照 进 程 的 分 类 ， 线 程 又 可 进一步 细 化 为 用 户 线程 和 内 核 线程 。 


到 目前 为 止 ， 我 们 就 可 以 明确 用 户 进程 、 核 心 进程 、 用 户 线 程 、 核 心 线程 的 区 别 了 。 从 本 质 
上 看 ， 线 程 就 是 一 个 特殊 的 不 用 拥有 资源 的 轻 量 级 进程 ， 在 Ucore 的 调度 和 执行 管理 中 ， 并 没 
有 区 分 线程 和 进程 。 ee oi 站 程 共享 一 个 内 核 地 址 空间 和 其 他 资源 ， 
所 以 这 些 内 核 进 程 都 是 内 核 线程 。 理 解 了 进程 或 线程 的 上 述 属 性 和 特征 ， 我 们 就 可 以 进行 进 
程 /线程 管理 的 设计 与 实现 了 。 但 是 为 了 叙述 上 的 简便 ， 在 分 析 proj12 (proj12 实 现 了 用 户 线 
程 ) 以 前 ， 以 下 用 户 态 的 进程 /线程 统称 为 用 户 进程 ， 而 内 核 进 程 /线程 则 统称 为 内 核 线 程 。 


【 实 


在 proj10 中 ， 


现 】 设 计 进 程控 制 块 


A 


struct proc_struct { 


// Process state 
// Process ID 
// the running times of Proces 


enum proc_state state,; 
int pid; 
int runs; 
uintptr_t kstack; // Process kernel stack 
volatile bool need_ resched; // need to be rescheduled to release CPU? 
struct proc_struct *parent; // the parent process 
struct mm_struct *mm; // Process's memory management field 
struct context context // Switch here to run process 
struct trapframe *tf; // Trap frame for current interrupt 

// the base addr of Page Directroy Table(PDT) 


// Process flag 


uintptr_t cr3; 

uint32_t flags; 
char name[PROC_NAME_LEN + 1]; 
list_entry_t list_link; 


// Process name 
// Process link list 





// Process hash list 





list_entry_t hash_link; 





}; 
在 上 述 域 中 ， 与 进程 管理 各 个 相关 层面 的 对 应 关系 如 下 表 所 示 : 
安全 管理 ， 资源 管理 状态 管理 系统 调用 进程 /线程 

内 存 安 全 : mm “内存 资源 :mm 进程 状态 :State 产生 中 断 或 执行 ;内 核 线 程 
页 表 首 地 址 :cr3 “运行 "状态 的 执行 现 ， 系 统 调用 时 执行 ; mm=NULL 
内 核 堆 栈 : kstack 场 :context 现场 :好 进程 间 关 系 : 
统计 占 用 CPU 的 次 parent 
故 : runs 进程 id:pid 进程 名 

字 :name 


下 面 重 点 解释 一 下 几 个 比较 重要 的 域 : 


进程 管理 信息 用 struct proc _struct 表 示 ， 在 kern/process/proc.h 中 定义 如 下 : 


。 mm : 内 存 管理 的 信息 ， 包 括 内 存 映射 列表 、 页 表 指 针 等 。mm 里 有 个 很 重要 的 项 pgdir ， 
记录 的 是 该 进程 使 用 的 一 级 页 表 的 物理 地 址 。 

e state : 进程 所 处 的 状态 。 

e。 parent : 用 户 进程 的 父 进程 (创建 它 的 进程 ) 。 在 所 有 进程 中 ， 只 有 一 个 进程 没有 父 
程 ， 就 是 内 核 创建 的 第 一 个 内 核 线程 idleproc。 内 核 根据 这 个 父子 关系 建立 进程 的 树 oe 
构 ， 用 于 维护 一 些 特殊 的 操作 ， 例 如 确定 哪些 进程 是 否 可 以 对 另外 一 些 进程 进行 什么 样 


大 后 大 后 


的 操作 等 等 。 


e Context : 


es el and a a ma 
器 的 目的 就 在 于 在 内 


。 在 ucore 中 ， 所 有 的 进程 在 
。 使 用 context 保存 寄存 
行 上 下 文 切 


进程 的 上 下 文 ， 用 于 进程 切换 (参见 switch.S) 


核 态 中 能 够 进行 上 下 文 之 间 的 切换 。 实 际 利 用 context 进 


换 的 函数 是 switch_ to， 在 kern/process/switch.S 中 定义 。 


e 证 : 中 断 帧 的 指针 ， 总 是 指向 内 核 栈 的 某 个 位 置 : 当 进 程 从 用 户 空间 跳 到 内 核 空 间 时 ， 中 
断 帧 记录 了 进程 在 被 中 断 前 的 状态 。 当 内 核 需要 跳 回 用 户 空间 时 ， 需 要 调整 中 断 帧 以 恢 
复 让 进程 继续 执行 的 各 寄存 器 值 。 除 此 之 外 ，ucore 内 核 允 许 获 套 中 断 。 因 此 为 了 保证 内 
套 中 断 发 生 时 tf 总 是 能 够 指向 当前 的 trapframe，ucore 在 内 核 栈 上 维护 了 证 的 链 ， 可 以 
参考 trap.c::trap 函 数 做 进一步 的 了 解 。 

cr3: cr3 保存 页 表 的 物理 地 址 ， 目 的 就 是 进程 切换 的 时 候 方便 直接 使 用 Ilcr3 实现 页 表 切 

换 ， 避 免 每 次 都 根据 mm 来 计算 cr3。mm 数据 结构 是 用 来 实现 用 户 空间 的 上 庶 存 管理 的 ， 

但 是 内 核 线程 没有 用 户 空间 ， 它 执行 的 只 是 内 核 中 的 一 小 段 代 码 〈 通 常 是 一 小 段 函 

数 ) ， 所 以 它 没有 mm 结构 ， 也 就 是 NULL。 当 茶 个 进程 是 一 个 普通 用 户 态 进 程 的 时 候 ， 

PCB 中 的 cr3 就 是 mm 中 页 表 (pgdir) 的 物理 地 址 ; 而 当 它 是 内 核 线程 的 时 候 ，cr3 等 

于 boot cr3。 而 boot cr3 指 向 了 ucore 居 动 时 建立 好 的 饿 内 核 庶 拟 空间 的 页 目录 表 首 地 

址 。 

。 kstack: 每 个 进程 都 有 一 个 内 核 栈 ， 并 且 位 于 内 核 地 址 空间 的 不 同位 置 。 对 于 内 核 线 程 ， 
该 栈 就 是 运行 时 的 程序 使 用 的 栈 ; 而 对 于 普通 进程 ， 该 栈 是 发 生 特权 级 改变 的 时 候 使 保 
存 被 打 断 的 硬件 信息 用 的 栈 。Ucore 在 创建 进程 时 分 配 了 2 个 连续 的 物理 页 (参见 
memlayout.h) 作为 内 核 栈 的 空间 。 这 个 栈 很 小 ， 所 以 内 核 中 的 代码 应 该 尽 可 能 的 紧凑 ， 
并 且 避 免 在 栈 上 分 配 大 的 数据 结构 ， 以 免 栈 溢出 ， 寻 致 系统 崩溃 。kstack 记 录 了 分 配给 该 
进程 /线程 的 内 核 栈 的 位 置 。 主 要 作用 有 以 下 几 点 。 首 先 ， 当 内 核准 备 从 一 个 进程 切换 到 
另 一 个 的 时 候 ， 需 要 根据 kstack 的 值 正确 的 设置 好 tss (可 以 回顾 一 下 在 lab1 中 讲述 的 
tss 在 中 断 处 理 过 程 中 的 作用 ) ， 以 便 在 进程 切换 以 后 再 发 生 中 断 时 能 够 使 用 正确 的 栈 。 
其 次 ， 内 核 栈 位 于 内 核 地 址 空间 ， 并 且 是 不 共享 的 〈 每 个 进程 /线程 都 拥有 自己 的 内 核 
栈 ) ， 因 此 不 受到 mm 的 管理 ， 当 进程 退出 的 时 候 ， 内 核能 够 根据 kstack 的 值 快速 定位 
栈 的 位 置 并 进行 回收 。ucore 的 这 种 内 核 栈 的 设计 借鉴 的 是 linux 的 方法 〈 但 由 于 内 存 管 
理 实现 的 差异 ， 它 实现 的 远 不 如 linux 的 灵活 ) ， 它 使 得 每 个 进程 /线程 的 内 核 栈 在 不 同 的 
位 置 ， 这 样 从 某 种 程度 上 方便 调试 ， 但 同时 也 使 得 内 核对 栈 溢出 变 得 十 分 不 敏感 ， 因 为 
一 旦 发 生 溢出 ， 它 极 可 能 污染 内 核 中 其 它 的 数据 使 得 内 核 崩 演 。 如 果 能 够 通过 页 表 ， 将 
所 有 进程 的 内 核 栈 映射 到 固定 的 地 址 上 去 ， 能 够 避免 这 种 问题 ， 但 又 会 使 得 进程 切换 过 
程 中 对 栈 的 修改 变 得 相当 繁琐 。 感 兴趣 的 同学 可 以 参考 linux kernel 的 代码 对 此 进行 党 
试 。 


为 了 管理 系统 中 所 有 的 进程 控制 块 ，Ucore 维 护 了 如 下 全 局 变量 (位 于 
kern/process/proc.c) 


。 static struct proc *current; // 当 前 占用 CPU， 处 于 “运行 "状态 进程 控制 块 指针 。 通 常 这 个 变 
量 是 只 读 的 ， 只 有 在 进程 切换 的 时 候 才 进行 修改 ， 并 且 整 个 切换 和 修改 过 程 需要 保证 操 
作 的 原子 性 ， 目 前 至 少 需要 屏蔽 中 断 ， 可 以 参考 switch to 的 实现 ， 后 面 也 会 介绍 到 。 
linux 的 实现 很 有 意思 ， 它 将 进程 控制 块 放 在 进程 内 核 栈 的 底部 ， 这 使 得 任何 时 候 current 
都 可 以 根据 内 核 栈 的 位 置 计 算出 来 的 ， 而 不 用 维护 一 个 全 局 变量 。 这 样 使 得 一 致 性 的 维 
护 以 及 多 核 的 实现 变 得 十 分 的 简单 和 高 效 。 感 兴趣 的 同学 可 以 参考 linux kernel 的 代码 。 

。 static struct proc *initproc; /指向 第 一 个 用 户 态 进程 (proj10 以 后 ) 

。 static list_entry_t hash_list[HASH_LIST_SIZEI]; /所 有 进程 控制 块 的 哈 希 表 ， 这 样 


proc_struct 中 的 域 hash_link 将 基于 pid 链 接 入 这 个 哈 希 表 中 。 
e list_entry_t proc listW 所 有 进程 控制 块 的 双向 线性 列表 ， 这 样 proc_struct 中 的 域 list_link 
将 链接 入 这 个 链表 中 。 


【实现 】 创 建 并 执行 内 核 线程 


既然 建立 了 进程 控制 块 ， 我 们 就 可 以 通过 进程 控制 块 来 创建 具体 的 进程 了 。 首 先 ， 我 们 考虑 
最 简单 的 内 核 线程 ， 它 通常 只 是 内 核 中 的 一 小 段 代 码 或 者 函数 ， 没 有 用 户 空间 。 而 由 于 在 操 
作 系 统 启 动 后 ， 已 经 对 整个 核心 内 存 空间 进行 了 管理 ， 通 过 设置 页 表 建立 了 核心 虚拟 空间 

( 即 boot_cr3 指 向 的 二 级 页 表 描 述 的 空间 ) 。 所 以 内 核 中 的 所 有 线程 都 不 需要 再 建立 各 自 的 页 
表 ， 只 需 共 享 这 核心 虚拟 空间 就 可 以 访问 整个 物理 内 存 了 。 


创建 第 0 个 内 核 线程 idleproc 


在 init.c::kern_init 辑 数 调用 了 proc.c::proc_init 部 数 。proc_init 骂 数 启动 了 创建 内 核 线 程 的 步 
骤 。 首先 当前 的 执行 上 下 文 (从 kern_init 启动 至 今 ) 就 可 以 看 成 是 一 个 内 核 线程 的 上 下 文 ， 
为 此 Ucore 通过 给 当前 执行 的 上 下 文 分 配 一 个 进程 控制 块 以 及 对 它 进行 相应 初始 化 而 将 其 打 
造成 第 0 个 内 核 线程 -- idleproc。 具 体 步 又 如 下 : 


首先 调用 alloc_proc 函 数 来 通过 kmalloc 函 数 获 得 proc_struct 结 构 的 一 块 内 存 一 proc， 这 就 是 第 
0 个 进程 控制 块 了 ， 并 把 proc 进 行 初步 初始 化 ( 即 把 proc_struct 中 的 各 个 域 清 零 )。 但 有 些 域 
设置 了 特殊 的 值 : 


proc->state = PROC_UNINIT; // 设 置 进程 为 “初始 ” 态 


proc->pid = -1; // 进 程 的 pid 还 没 设置 好 
proc->cr3 = boot_cr3; // 进 程 在 内 核 中 使 用 的 内 核 页 表 的 起 始 地 址 
上 述 三 条 语 名 中 ,第 一 条 设置 了 进程 的 状态 为 “初始 " 态 ， 这 表示 进程 已 经 "出 生 " 了 ， 正 在 获取 资 


源 茧 壮 成 长 中 ; 第 二 条 语句 设置 了 进程 的 pid 为 -1， ee 没有 办 好 ; 第 三 
条 语句 表明 进程 如 果 在 内 核 运行 ， 则 采用 为 内 核 建立 的 页 表 ， 即 设置 了 在 内 内 核 的 页 表 的 起 始 
地 址 ， 这 也 可 进一步 看 出 所 有 进程 的 内 核 虚 地 址 空间 (也 包括 物理 地 址 空间 ) 是 相同 的 。 既 
然 内 核 进程 共用 一 个 映射 内 核 空 间 的 页 表 ， 这 表示 所 有 这 些 内 核 空间 对 所 有 内 核 进程 都 是 “可 
见 " 的 ， 所 以 更 精确 地 说 ， 这 些 内 核 进程 都 应 该 是 内 核 线程 。 


接 下 来 ，proc_init 吕 数 对 idleproc 内 核 线程 进 一 步 初始 化 : 


idleproc->pid = 0; 

idleproc->state = PROC_RUNNABLE， 
idleproc->kstack = (uintptr_t)bootstack 
idleproc->need_resched = 1; 
set_proc_name(idleproc, "idle"); 


需要 注意 前 4 条 语句 。 第 一 条 语句 给 了 idleproc 合 法 的 身份 证 号 --0， 这 名 正言 顺 地 表明 了 
idleproc 是 第 0 个 内 核 线程 。"0” 是 第 一 个 的 表示 方法 是 计算 机 领域 所 特有 的 ， 比 如 C 语 言 定义 
的 第 一 个 数组 元 素 的 小 标 也 是 “0”。 第 二 条 语句 改变 了 idleproc 的 状态 ， 使 得 它 从 “出 生 " 转 到 

了 “准备 工作 ”， 就 差 uUcore 调 度 它 执行 了 。 第 三 条 语句 设置 了 idleproc 所 使 用 的 内 核 栈 的 起 始 地 
址 。 需 要 注意 以 后 的 其 他 进程 /线程 的 内 核 栈 都 需要 通过 分 配 获得 ， 因 为 ucore 启 动 时 设置 的 内 
核 栈 直接 分 配给 idleproc 使 用 了 。 第 四 条 很 重要 ， 因 为 Ucore 希 望 当 前 CPU 应 该 做 更 有 用 的 工 
作 ， 而 不 是 运行 idleproc 这 个 “无 所 事 事 ”的 内 核 线 程 ， 所 以 把 idleproc->need_resched 设 置 

为 “1”， 结 合 idleproc 的 执行 主体 --cpu _ idle 函数 的 实现 ， 可 以 清楚 看 出 如 果 当 前 idleproc 在 执 
行 ， 则 只 要 此 标志 为 1， 马 上 就 调用 Schedule 函数 要 求 调 度 器 切换 其 他 进程 执行 。 


【问题 】 为 何 说 idleproc 的 执行 主体 是 cpu_idle 有 函数 ? 


创建 第 1 个 内 核 线程 initproc 


第 0 个 内 核 线程 主要 工作 是 完成 内 核 中 各 个 子 系统 的 初始 化 ， 然 后 就 通过 执行 cpu idle 函数 开 
始 过 退休 生活 了 。 但 接 下 来 还 需 创 建 其 他 进程 来 完成 各 种 工作 ， 但 idleproc 自 己 不 想 做 ， 于 是 
就 通过 调用 kernel_ thread 函数 创建 了 一 个 内 核 线程 init_main。 在 proj10 中 ， 这 个 子 内 核 线程 的 
工作 就 是 输出 一 些 字符 串 ， 然 后 就 返回 了 (参看 init_main 骂 数 ) 。 但 在 后 续 的 proj 中 ， 
init_main 的 工作 就 是 创建 特定 的 其 他 内 核 线 程 或 用 户 进程 。 下 面 我 们 来 分 析 一 下 创建 内 核 线 
程 的 函数 kernel_thread : 


kernel thread(int (*fn)(void *), void *arg, uint32 _t clone_ flags) { 
struct trapframe tf_struct,; 
memset(&tf_struct, ©0, sizeof(struct trapframe)); 
tf_struct.tf cs = KERNEL CS; 
tf_struct.tf ds = tf struct.tf es = tf_struct.tf_ss = KERNEL_DS; 
tf_struct.tf_regs.reg_ebx = (uint32_t)fn; 
tf_struct.tf_regs.reg_edx = (uint32_t)arg; 
tf_struct.tf_eip = (uint32_t)kernel thread_entry; 
return do_fork(clone flags | CLONE VM, 0, &tf_struct); 


注意 ，Kkernel_thread 哆 数 采 用 了 局 部 变量 tf 来 放置 保存 内 核 线 程 的 临时 中 断 帧 ， 并 把 中 断 帧 的 
指针 传递 给 do_fork 函 数 ， 而 do_fork 元 数 会 调用 copy_thread 元 数 来 在 新 创建 的 进程 内 核 栈 上 
专门 给 进程 的 中 断 帧 分 配 一 块 空间 。 


给 中 断 帧 分 配 完 空间 后 ， 就 需要 构造 新 进程 的 中 断 帧 ， 具 体 过 程 是 : 首先 给 tf 进行 清 零 初始 
化 ， 并 设置 中 断 帧 的 代码 段 (tf.tf cs) 和 数据 段 (tf.tf_ ds/tf_es/tf _ ss) 为 内 核 空间 的 段 
(KERNEL CS/ KERNEL_DS) ， 这 实际 上 也 说 明了 initproc 内 核 线程 在 内 核 空间 中 执行 。 而 
initproc 内 核 线 程 从 哪里 开始 执行 呢 ?ftf eip 的 指出 了 是 kernel_ thread_entry〈 位 于 
kern/process/entry.S 中 ) ，kernel thread_entry 是 entry.S 中 实现 的 汇编 泡 数 ， 它 做 的 事情 很 
简单 : 


kernel_ thread_entry: # void kernel thread(void) 


pushl %edx # push arg 

call *%ebx # call fn 

pushl %eax # save the return value of fn(arg) 

call do_exit # call do exit to terminate current thread 


从 上 可 以 看 出 ，kernel thread_entry 函 数 主要 为 内 核 线程 的 主体 负 函 数 做 了 一 个 准备 开始 和 结 
束 运行 的 “党 ”， 及 把 函数 fn 的 参数 arg (保存 在 edx 寄 存 器 中 ) 压 栈 ， 然 后 调用 fn 总数 ， 把 函数 
返回 值 eax 寄 存 器 内 容 压 栈 ， 调 用 do_exit 骂 数 退 出 线程 执行 。 


do_fork 是 创建 线程 的 主要 函数 。kernel thread 函数 通过 调用 do_fork 了 有 函数 最 终 完 成 了 内 核 线程 
的 创建 工作 。 下 面 我 们 来 分 析 一 下 do _fork 函 数 的 实现 。do fork 函 数 主要 做 了 以 下 6 件 事情 


1: 分 配 并 初始 化 进程 控制 块 (alloc_proc 函 数 ) ; 
2 ' 分 配 并 初始 化 内 核 栈 〈setup_stack 函 数 ) ; 
3 . 根据 clone flag 标 志 复 制 或 共享 进程 内 存 管 理 结 构 (copy_ mm 换 生 ) ; 


4 设置 进程 在 内 核 (将 来 也 包括 用 户 态 ) 正常 运行 和 调度 所 需 的 中 断 帧 和 执行 上 下 文 
(copy _ thread 函数 ) ; 


5. 把 设置 好 的 进程 控制 块 放 入 hash_list 和 proc list 两 个 全 局 进程 链表 中 ; 
6 自 此 ， 进 程 已 经 准备 好 执行 了 ， 把 进程 状态 设置 为 "就 绪 " 态 。 


这 里 需要 注意 的 是 ， 如 果 上 述 前 3 步 执行 没有 成 功 ， 则 需要 做 对 应 的 出 错 处 理 ， 把 相关 已 经 占 
有 的 内 存 释 放 掉 。copy_ mm 有 函数 目前 只 是 把 current->mm 设 置 为 NULL， 这 是 由 于 目前 proj10 
只 能 创建 内 核 线程 ，proc->mm 描 述 的 是 进程 用 户 态 空间 的 情况 ， 所 以 目前 mm 还 用 不 上 。 
copy_ thread 函数 做 的 事情 比较 多 ， 代 码 如 下 : 


static void 

copy_thread(struct proc_struct *proc, uintptr_t esp, struct trapframe *tf) { 
proc->tf = (struct trapframe *)(proc->kstack + KSTACKSIZE) - 1 
*(proc->tf) = *tf; 
proc->tf->tf_regs.reg eax = 0; 
proc->tf->tf_esp = esp; 
proc->tf->tf_eflags |= FL_IF; 


proc->context.eip = (uintptr_t)forkret; 
proc->context.esp = (uintptr_t)(proc->tf); 


此 函数 首先 在 内 核 扒 栈 的 顶部 设置 中 断 帧 大 小 的 一 块 栈 空间 ， 并 在 此 空间 中 拷贝 在 

kernel thread 函数 建立 的 临时 中 断 帧 的 初始 值 ， 并 进一步 设置 中 断 帧 中 的 栈 指针 esp 和 标志 寄 
存 器 eflags， 特 别 是 eflags 设 置 了 FL_IF 标 志 ， 这 表示 此 内 核 线程 在 执行 过 程 中 ， 能 响应 中 

断 ， 打 断 当 前 的 执行 。 执 行 到 这 步 后 ， 此 进程 的 中 断 帧 就 建立 好 了 ， 对 于 initproc 而 言 ， 它 的 
中 断 帧 如 下 所 示 : 


// 所 在 地 址 位 置 

initproc->tf= (proc->kstack+KSTACKSIZE) - Sizeof (struct trapframe ) ; 
// 具 体内 容 

initproc->tf.tf_cs = KERNEL_CS; 

initproc->tf,tf ds = initproc->tf.tf_es = initproc->tf.tf_ss = KERNEL_DS; 
initproc->tf.tf_regs.reg ebx = (uint32 _t)init_main; 
initproc->tf.tf_regs.reg edx = (uint32 _t) ADDRESS of "Hello world!!"; 
initproc->tf.tf_eip = (uint32_t)kernel thread_entry; 
initproc->tf.tf_regs.reg _ eax = 0; 

initproc->tf.tf_esp = esp; 

initproc->tf.tf_eflags |= FL_IF， 


设置 好 中 断 帧 后 人 执行 现场 (也 称 进程 上 下 文 , process context) 了 。 
只 有 设置 好 执行 现场 一 旦 UCOre 调 度 器 选择 了 initproc 执 行 ， 就 需 en 
中 保存 的 执行 现场 来 恢复 initproc 的 执行 这 里 设置 了 initproc 的 执行 现场 中 主要 的 两 个 信息 

次 停止 执行 时 的 下 一 条 指令 地 址 context.eip 和 上 次 停止 执行 时 的 堆栈 地 址 context.esp。 
initproc 还 没有 执行 过 ， 所 以 这 其 实 就 是 initproc 实 际 执 行 的 第 一 条 指令 地 址 和 堆栈 指针 。 可 以 
看 出 ， 由 于 initproc 的 中 断 帧 占用 了 实际 给 initproc 分 配 的 栈 空间 的 顶部 ， 所 以 initproc 就 只 能 把 
栈 顶 指针 context.esp 设 置 在 initproc 的 中 断 帧 的 起 始 位 置 。 根 据 context.eip 的 赋值 ， 可 以 知道 
initproc 实 际 开始 执行 的 地 方 在 forkret 骂 数 处 。 至 此 ，initproc 内 核 线 程 已 经 做 好 准备 执行 了 。 


最 后 高 
轧 后 ， 


司 度 并 执行 内 核 线程 initproc 


在 ucore 执 行 完 proc_ init 函数 后 ， 就 创建 好 了 两 个 内 核 线程 : idleproc 和 initproc， 这 时 ucore 当 
前 的 执行 现场 就 是 idleproc， 等 到 执行 到 init 函 数 的 最 后 一 个 函数 cpu_idle 之 前 ，Ucore 的 所 有 
初始 化 工作 就 结束 了 ，idleproc 将 通过 执行 cpu_idle 元 数 让 出 CPU， 给 其 它 内 核 线程 执行 ， 具 
体 过 程 如 下 : 


void 
cpu_idle(void) { 
while (1) { 
if (current->need resched) { 
schedule(); 


首先 ， 判 断 当 前 内 核 线程 idleproc 的 need _resched 是 否 不 为 0， 回 顾 本 节 中 “创建 第 一 个 内 核 线 
程 idleproc” 中 的 描述 ，proc_init 骂 数 在 初始 化 idleproc 中 ， 就 把 idleproc->need resched 置 为 1 
了 ， 所 以 会 马上 调用 Schedule 函数 找 其 他 处 于 “就 绪 " 态 的 进程 执行 。 


Ucore 在 proc10 中 只 实现 了 一 个 最 简单 的 FIFO 调 度 器 ， 其 核心 就 是 schedule 有 函数 。 它 的 执行 逻 
辑 很 简单 : 


1 设置 当前 内 核 线程 current->need_resched 为 0 ; 
2 在 proc_list 队 列 中 查找 下 一 个 处 于 “就绪 ”" 态 的 线程 或 进程 next ; 


3 . 找到 这 样 的 进程 后 ， 就 调用 proc_run 有 函数 ， 保 存 当 前 进程 current 的 执行 现场 (进程 上 下 
文 ) ， 恢 复 新 进程 的 执行 现场 ， 完 成 进程 切换 。 


至 此 ， 新 的 进程 next 就 开始 执行 了 。 由 于 在 proc10 中 只 有 两 个 内 核 线 程 ， 且 idleproc 要 让 出 
CPU 给 initproc 执 行 ， 我 们 可 以 看 到 Schedule 函数 通过 查找 proc_ list 进程 队列 ， 只 能 找到 一 个 
处 于 “就 绪 " 态 的 initproc 内 核 线程 。 并 通过 proc_run 和 进一步 的 Switch_to 函 数 完成 两 个 执行 现 
场 的 切换 ， 具 体 流程 如 下 : 


1: 让 current 指 向 next 内 核 线程 initproc ; 


2 . 设置 任务 状态 段 ts 的 特权 态 0 下 的 栈 顶 指针 esp0 为 next 内 核 线程 initproc 的 内 核 栈 的 栈 顶 ， 
Bpnext->kstack + KSTACKSIZE ; 


3 设置 CR3 寄 存 器 的 值 为 next 内 核 线 程 initproc 的 页 目录 表 起 始 地 址 next->cr 3， 这 实际 上 是 完 
成 进程 间 的 页 表 切 换 ; 


4 由 Switch_to 有 函数 完成 具体 的 两 个 线程 的 执行 现场 切换 ， 即 切换 各 个 寄存 器 ， 当 Switch to 函 
数 执 行 完 “ret" 指 令 后 ， 就 切换 到 initproc 执 行 了 。 


这 里 需要 注意 ， 在 第 二 步 设置 任务 状态 段 ts 的 特权 态 0 下 的 栈 顶 指针 esp0 的 目的 是 建立 好 内 核 
线程 或 将 来 用 户 线 程 在 执行 特权 态 切 换 (从 特权 态 0<--> 特 权 态 3， 或 从 特权 态 3<--> 特 权 态 3) 
时 能 够 正确 定位 处 于 特权 态 0 时 进程 的 内 核 栈 的 栈 顶 ， 而 这 个 栈 顶 其 实 放 了 一 个 trapframe 结 构 
的 内 存 空间 。 如 果 是 在 特权 态 3 发 生 了 中 断 /异常 /系统 调用 ， 则 CPU 会 从 特权 态 3--> 特 权 态 0 ， 
且 CPU 从 此 栈 顶 开始 压 栈 来 保存 被 中 断 /异常 /系统 调用 打 断 的 用 户 态 执行 现场 ; 如 果 是 在 特权 
态 0 发 生 了 中 断 /异常 /系统 调用 ， 则 CPU 会 从 特权 态 还 是 0， 且 CPU 从 当前 栈 指针 esp 所 指 的 位 
置 开 始 压 栈 保存 被 中 断 /异常 /系统 调用 打 断 的 内 核 态 执行 现场 。 反 之 ， 当 执行 完 对 中 断 / 异 常 / 
系统 调用 打 断 的 处 理 后 ， 最 后 会 执行 一 个 "iret”" 指 令 。 在 执行 此 指令 之 前 ，CPU 的 当前 栈 指针 
esp 一 定 指向 上 次 产生 中 断 /异常 /系统 调用 时 CPU 保存 的 被 打 断 的 指令 地 址 CS 和 EIP ，“iret" 指 
令 会 根据 ESP 所 指 的 保存 的 址 CS 和 EIP 恢 复 到 上 次 被 打 断 的 地 方 继续 执行 。 


在 页 表 设 置 方面 ， 由 于 idleproc 和 initproc 都 是 共用 一 个 内 核 页 表 boot_cr3， 所 以 此 时 第 三 步 其 
实 没 用 ， 但 考虑 到 以 后 的 进程 有 各 自 的 页 表 ， 其 起 始 地 址 各 不 相同 ， 只 有 完成 页 表 切 换 ， 才 
能 确保 新 的 进程 能 够 正常 执行 。 


第 四 步 proc_run 函 数 调 用 Switch_ to 函数 ， 参 数 是 前 一 个 进程 和 后 一 个 进程 的 执行 现场 
context。 在 上 一 节 “ 设 计 进程 控制 块 " 中 ， 描 述 了 context 结 构 包 含 的 要 保存 和 恢复 的 寄存 器 。 
我 们 在 看 看 switch.S 中 的 switch_ to 有 函数 的 执行 流程 : 


.globl Switch_to 


亲 


switch_to: switch_to(from, to) 

# save from's registers 

movl1 4(%esp), %eax # eax points to from 

popl 0(%eax ) # Save eip !popl 

movl1 %esp, 4(%eax) 

movl1 %ebp, 28(%eax) 

# restore to's registers 

movl1l 4(%esp), %eax # not 8(%esp): popped return address already 


亲 


eax now points to to 
movl1 28(%eax), %ebp 


movl1 4(%eax), %esp 
pushl 0(%eax) # push eip 
ret 


首先 ， 保 存 前 一 个 进程 的 执行 现场 ， 前 两 条 汇编 指令 (如 下 所 示 ) 保存 了 进程 在 返回 
switch_to 函 数 后 的 指令 地 址 到 context.eip 中 


movl 4(%esp), %eax # eax points to from 
popl 0(%eax) # save eip !popl 


在 接 下 来 的 7 条 汇编 指令 完成 了 保存 前 一 个 进程 的 其 他 7 个 寄存 器 到 context 中 的 相应 域 中 。 至 
此 前 一 个 进程 的 执行 现场 保存 完毕 。 接 下 来 就 是 恢复 向 一 个 进程 的 执行 现场 ， 这 其 实 就 是 上 
述 保存 过 程 的 逆 执 行 过 程 ， 即 从 context 的 高 地 址 的 域 ebp 开 始 ， 未 一 把 相关 域 的 值 赋值 给 对 应 
的 寄存 器 ， 倒 数 第 二 条 汇编 指令 "pushl 0(%eax)" 其 实 把 context 中 保存 的 下 一 个 进程 要 执行 的 
前 令 地 址 context.eip 放 到 了 堆栈 顶 ， 这 样 接 下 来 执行 最 后 一 条 指令 "ref" 时， 会 把 栈 顶 的 内 容 赋 
值 给 EIP 寄 存 器 ， 这 样 就 切换 到 下 一 个 进程 执行 了 ， 即 当前 进程 已 经 是 下 一 个 进程 了 。 


再 回 到 proj10 中 ，ucore 会 执行 进程 切换 ， 让 initproc 执 行 。 在 对 initproc 进 行 初始 化 时 ， 设 置 了 
initproc->context.eip = (uintptr_t)forkret， 这 样 ， 当 执行 switch_to 有 函数 并 返回 后 ，initproc 将 执 
行 其 实际 上 的 执行 入 口 地 址 forkret。 而 forkret 会 调用 位 于 kern/trap/trapentry.S 中 的 forkrets 声 
数 执行 ， 具 体 代 码 如 下 : 


.globl trapret 

trapret : 
# restore registers from stack 
popal 


# restore %ds and %es 
popl %es 
popl %ds 


# get rid of the trap number and error code 
addl $0x8, %esp 
iret 


.globl forkrets 

forkrets: 
# set stack to this new process's trapframe 
movl 4(%esp), %esp // 把 esp 指 向 当前 进程 的 中 断 帧 
jmp trapret 


可 以 看 出 ，forkrets 函 数 首先 把 esp 指 向 当前 进程 的 中 断 帧 ， 从 _trapret 开 始 执行 到 iret 前 ，esp 
指向 了 current->tf.tf_eip， 而 如 果 此 时 执行 的 是 initproc， 则 current->tf.tf_eip= 

kernel thread_entry，initproc->tf.tf cs = KERNEL_ CS， 所 以 当 执 行 完 iret 后 ， 就 开始 在 内 核 
中 执行 kernel_thread_entry 驾 数 了 ， 而 initproc->tf.tf_regs.reg_ebx = init main， 所 以 在 
kernl_thread_entry 中 执行 “call %ebx" 后 ， 就 开始 执行 initproc 的 主体 了 。Initprocde 的 主体 函数 
很 简单 就 是 输出 一 段 字 符 串 ， 然 后 就 返回 到 kernel tread_entry 函 数 ， 并 进一步 调用 do_exit 执 
行 退出 操作 了 。 本 来 do_exit 应 该 完成 一 些 资源 回收 工作 等 ， 但 这 些 不 是 proj10 涉 及 的 ， 而 是 
由 后 续 的 proj 来 完成 。 至 此 ，proj10 的 主要 工作 描述 完毕 


创建 并 执行 用 户 进程 


实验 目标 


到 proj10 为 止 ，Ucore 还 一 直 在 核心 态 “ 打 转 *”， 没 有 到 用 户 态 执 行 。 其 实 这 也 是 对 操作 系统 的 

要 求 ， 操 作 系 统 就 要 采 在 核心 态 ， 才 能 管理 整个 计算 机 系统 。 但 应 用 程序 员 也 需要 编写 各 种 

应 用 软件 ， 且 要 在 计算 机 系统 上 运行 。 如 果 把 这 些 应 用 软件 都 作为 内 核 线程 来 执行 ， 那 系统 
的 安全 性 就 无 法 得 到 保证 了 。 操 作 系 统 的 观点 是 : 操作 系统 程序 员 编 写 的 操作 系统 模块 是 可 

信 的 、 高 效 的 ， 对 计算 机 的 物理 资源 了 如 指 掌 ， 可 在 计算 机 的 核心 态 执行 ; 但 应 用 程序 员 编 

写 的 应 用 软件 是 不 可 信 的 ， 不 必 了 解 计算 机 的 物理 资源 ， 且 需要 操作 系统 提供 服务 ， 故 放 在 

用 户 态 执行 ， 无 法 轻易 破坏 操作 系统 和 其 他 用 户 态 的 进程 通过 系统 调用 获得 操作 系统 的 服 

务 。 所 以 ，Ucore 要 提供 用 户 态 进程 的 创建 和 执行 机 制 ， 给 应 用 程序 执行 提供 一 个 用 户 态 运行 
环境 。 


proj10.1 概 述 


实现 描述 


proj10.1 是 lab3 的 第 二 个 project。 它 在 proj10 的 基础 上 实现 了 对 用 户 态 进程 的 支持 ， 主 要 扩展 
设计 了 用 户 进 程 执行 的 用 户 地 址 室 间 、 对 用 户 进 程 访 存 错误 的 异常 处 理 、 提 供用 户 进程 执行 
效率 的 按 需 分 页 和 写 时 复制 的 支持 、 加 载 并 执行 依附 在 ucore 内 核 文件 的 用 户 执行 程序 、 实 现 
系统 调用 机 制 等 。 


项 目 组 成 


proj10 .1 


-一 mm 
一 memlayout.h 
一 vmm.c 
[一 vmm .h 


一 process 


| 一 syscall 
| 一 syscall.c 
[一 syscall.h 
— trap 
一 trap.c 
[= 








-一 User 

-一 badsegment.c 

| 一 divzero.c 

| 一 faultread .c 

| 一 faultreadkerne1.c 

| 一 hello.c 

| 一 libs 
| 一 initcode.S 
一 panic.c 
一 stdio.c 
| 一 syscall.c 
| 一 syscall.h 
| 一 ulib.c 
一 ulib.h 


-一 umain.c 
-一 pgdir.c 

-一 softint.c 
| 一 testbss.c 





— yield.c 


17 directories, 97 files 


相对 于 proj10，proj10.1 主 要 增加 了 有 关系 统 调 用 实现 的 syscall.[ch] 和 测试 Ucore 对 用 户 进程 支 
持 的 各 种 用 户 态 程序 和 库 文件 ， 并 对 相关 的 内 核 文 件 进行 了 修改 。 主 要 修改 和 增加 的 文件 如 
下 


e。 mm/memlayout.h : 定义 了 用 户 态 空间 的 范围 ， 具 体 可 看 “Virtual memory map” 的 ASCII 图 
注释 。 

。mm/vmm.[ch] : 在 vmm.h 文 件 中 ， 扩 展 了 mm_struct 数 据 结构 ， 支 持 多 进程 对 mm_struct 
的 引用 计数 和 互 不 访问 ， 和 针对 mm_struct 结 构 的 引用 计数 操作 和 互 斥 操作 ; 在 vmm.c 
中 ， 主 要 增加 了 部 分 函数 防止 多 进程 (比如 父子 进程 、 多 线程 等 ) 同时 访问 进程 的 mm 进 


程 内 存 管 理 数据 结构 。 

。 process/proc.[ch] : 对 一 系列 进程 管理 相关 兄 数 进行 了 扩展 ， 并 新 实现 了 部 分 函数 。 这 是 
内 核 改动 最 大 的 部 分 。 

。 syscall/syscall.[ch] : 新 增加 的 部 分 ， 提 供用 户 态 进程 所 需 的 系统 服务 的 操作 系统 层 接 
口 ， 根 据 系统 调用 号 ， 在 转 到 具体 的 服务 功能 函数 中 完成 用 户 态 进程 的 服务 请 求 。 

。 trap/trap.c : 增加 对 系统 调用 的 初始 化 和 处 理 ， 扩 展 对 访 存 错误 异常 的 处 理 。 

e User/* : 实现 应 用 程序 所 需 的 基本 库 函 数 支持 ， 提 供 实现 系统 调用 的 用 户 层 接口 。 


编译 并 运行 proj10.1 的 命令 如 下 : 


make 
make qemu 


则 可 以 得 到 如 下 显示 界面 


(THU.CST) os is loading ... 


Special kernel symbols: 
entry QOxc010002c (phys) 
etext QOxc0114ba3 (phys) 
edata QOxc018656f (phys) 
end Oxc018b934 (phys) 
Kernel executable memory footprint: 559KB 
memory management: buddy_pmm_manager 
check_mm_shm_swap() succeeded. 
++ Setup timer interrupts 
kernel_ execve: pid = 1, name = "hello". 
Hello world!!. 
I am process 1. 
hello pass. 
kernel panic at kern/process/proc.c:379: 
initproc exit. 


Welcome to the kernel debug monitor!! 
Type 'help' for a list of commands. 
K> 


上 述 执行 输出 相对 于 proj10 没 有 太 多 变化 ， 只 是 出 现 了 “kernel_execve: ... hello pass” 等 字符 
串 。 但 其 实在 其 背后 ， 涉 及 创建 用 户 态 进程 ， 把 执行 代码 加 载 到 用 户 态 线程 地 址 空间 ， 执 行 
系统 调用 等 一 系列 操作 。 为 了 更 好 地 理解 proj10.1 的 设计 和 实现 方案 ， 我 们 先 需要 在 了 解 一 下 
用 户 态 进 程 的 特征 。 下 面 我 们 将 从 原理 和 实现 两 个 方面 对 此 进行 进一步 阅 述 。 


实验 2: 创建 并 执行 用 户 进 程 
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【原理 】 用 户 进程 的 特征 


从 内 核 线程 到 用 户 进程 


在 proj10 中 设计 实现 了 进程 控制 块 ， 并 实现 了 内 核 线程 的 创建 和 简单 的 调度 执行 。 但 proj10 中 
没有 在 用 户 态 执行 用 户 进 程 的 管理 机 制 ， 既 无 法 体现 用 户 进 程 的 地 址 空间 ， 以 及 用 户 进程 间 
地 址 空间 隔离 的 保护 机 制 ， 不 支持 进程 执行 过 程 的 用 户 态 和 核心 态 之 间 的 切换 ， 且 没有 用 户 
进程 的 完整 状态 变化 的 生命 周期 。 其 实 没有 实现 的 原因 是 内 核 线程 不 需要 这 些 功能 。 那 内 核 
线程 相对 于 用 户 态 线程 有 何 特点 呢 ? 


但 其 实 我 们 已 经 在 proj10 中 看 到 了 内 核 线程 ， 内 核 线程 的 管理 实现 相对 是 简单 的 ， 其 特点 是 直 
接 使 用 操作 系统 (比如 ucore) 在 初始 化 中 建立 的 内 核 虚 拟 内 存 地 址 空间 ， 不 同 的 内 核 线程 之 
间 可 以 通过 调度 器 实现 线程 间 的 切换 ， 达 到 0 目的 。 由 于 内 核 虚 拟 内 存 空间 是 
一 一 映射 计算 机 系统 的 物理 空间 的 ， 这 使 得 可 用 空间 的 大 小 不 会 超过 物理 空间 大 小 ， 所 以 操 
作 系 统 程序 员 编 写 内 核 线程 时 ， 需 要 考虑 0 间 ， 需 要 保证 各 个 内 核 线程 在 执行 
过 程 中 不 会 破坏 操作 系统 的 正常 运行 。 这 样 在 实现 内 核 线程 管理 时 ， 不 必 考 虑 涉及 与 进程 相 
关 的 虚拟 内 存 管 理 中 的 缺 页 处 理 、 按 需 分 页 、 写 时 复制 、 页 换 入 换 出 等 功能 。 如 果 在 内 核 线 
程 执行 过 程 中 出 现 了 访 存 错误 异常 或 内 存 不 够 的 情况 ， 就 认为 操作 系统 出 现 错误 了 ， 操 作 系 
统 将 直接 宕 机 。 在 ucore 中 ， 就 是 调用 panic 有 函数 ， 进 入 内 核 调 试 监控 器 
kernel debug _monitor 。 


内 核 线程 管理 思想 相对 简单 ， 但 编写 内 核 线程 对 程序 员 的 要 求 很 高 。 从 理论 上 讲 (理想 情 
况 ) ， 如 果 程 序 员 都 是 能 够 编写 操作 系统 级 别 的 “高手 "， 能 够 勤俭 和 高 效 地 使 用 计算 机 系统 中 
的 资源 ， 且 这 些 “ 高 手 " 都 为 他 人 着 想 ， 具 有 奉献 精神 ， 在 别 的 应 用 需要 计算 机 资源 的 时 候 ， 能 
够 从 大 局 出 发 ， 从 整个 系统 的 执行 效率 出 发 ， 让 出 自己 占用 的 资源 ， 那 这 些 “ 高 手 "编写 出 来 的 
程序 直接 作为 内 核 线程 运行 即 可 ， 也 就 没有 用 户 进程 存在 的 必要 了 。 


但 现实 与 理论 的 差距 是 巨大 的 ， 能 编写 操作 系统 的 程序 员 是 极 少数 的 ， 与 当前 的 应 用 程序 员 
相 比 ， 估 计 大 约 差 了 3~4 个 数量 级 。 如 果 还 要 求 编写 操作 系统 的 程序 员 考虑 其 他 未 知 程序 员 的 
未 知 需求 ， 那 这 样 的 程序 员 估 计 可 以 成 为 是 编程 界 的 “< 上帝 "了 。 


从 应 用 程序 编写 和 运行 的 角度 看 ， 既 然 程序 员 都 不 是 “上 上帝 ”， 操 作 系 统 程序 员 就 需要 给 应 用 程 
序 员 编写 的 程序 提供 一 个 既 " 宽 松 ” 又 "严格 "的 执行 环境 ， 让 对 内 存 大 小 和 CPU 使 用 时 间 等 资源 
的 限制 没有 仔细 考虑 的 应 用 程序 都 能 在 操作 系统 中 正常 运行 ， 且 即使 程序 太 可 靠 ， 也 只 能 破 
坏 自己 ， 而 不 能 破坏 其 他 运行 程序 和 整个 系统 。" 严 格 "就 是 安全 性 保证 ， 即 应 用 程序 执行 不 会 
破坏 在 内 存 中 存在 的 其 他 应 用 程序 和 操作 系统 的 内 存 空 间 等 独占 的 资源 ;“ 宽 松 " 就 算是 方便 性 
支持 ， 即 提供 给 应 用 程序 尽量 丰富 的 服务 功能 和 一 个 远大 于 物理 内 存 空 间 的 虚拟 地 址 空间 ， 

使 得 应 用 程序 在 执行 过 程 中 不 必 考 虑 很 多 繁琐 的 细节 (比如 如 何 初始 化 PC| 总 线 和 外 设 等 ， 如 
果 管 理 物理 内 存 等 ) 。 


让 用 户 进程 正常 运行 的 用 户 环境 


在 操作 系统 原理 的 介绍 中 ， 一 般 提 到 进程 的 概念 其 实 主要 是 指 用 户 进程 。 从 操作 系统 的 设计 
和 实现 的 角度 看 ， 其 实用 户 进程 是 指 一 个 应 用 程序 在 操作 系统 提供 的 一 个 用 户 环境 中 的 一 次 
执行 过 程 。 这 里 的 重点 是 用 户 环境 。 用 户 环境 有 啥 功能 ? 用 户 环境 指 的 是 什么 ? 


从 功能 上 看 ， 操 作 系统 提 供 的 这 个 用 户 环境 有 两 方面 的 特点 。 一 方面 与 存储 空间 相关 ， 即 限 
制 用户 进 程 可 以 访问 的 物理 地 址 空间 ， 且 让 各 个 用 户 进程 之 间 的 物理 内 存 空 间 访 问 不 重 枉 ， 

这 样 可 以 保证 不 同 用 户 进程 之 间 不 能 相互 破坏 各 自 的 内 存 空 间 ， 利 用 虚拟 内 存 的 功能 (页 换 
入 换 出 ) 。 给 用 户 进 程 提供 了 远大 于 实际 物理 内 存 空间 的 虚拟 内 存 空 间 。 


另 一 方面 与 执行 指令 相关 ， 即 限制 用 户 进 程 可 执行 的 指令 ， 不 能 让 用 户 进 程 执行 特权 指令 
(比如 修改 页 表 起 始 地 址 ) ， 从 而 保证 用 户 进程 无 法 破坏 系统 。 但 如 果 不 能 执行 特权 指令 ， 
则 很 多 功能 (比如 访问 磁盘 等 ) 无 法 实现 ， 所 以 需要 提供 某 种 机 制 ， 让 操作 系统 完成 需要 特 
权 指 令 才 能 做 的 各 种 服务 功能 ， 给 用 户 进程 一 个 “服务 窗口 "用 户 进程 可 以 通过 这 个 “窗口 "向 操 
作 系 统 提 出 服务 请 求 ， 由 操作 系统 来 帮助 用 户 进 程 完成 需要 特权 指令 才能 做 的 各 种 服务 。 另 
外 ， 还 要 有 一 个 “中 断 窗口 *， 让 用 户 进 程 不 主动 放弃 使 用 CPU 时 ， 操 作 系 统 能 够 通过 这 个 "中 
断 窗口 "强制 让 用 户 进程 放 育 使 用 CPU， 从 而 让 其 他 用 户 进程 有 机 会 执行 。 


基于 功能 分 析 ， 我 们 就 可 以 把 这 个 用 户 环境 定义 为 如 下 组 成 部 分 : 


。 建立 用 户 虚 拟 空间 的 页 表 和 支持 页 换 入 换 出 机 制 的 用 户 内 存 访 存 错 误 蜡 常服 务 例 程 : 提 
供 地 址 隔离 和 超过 物理 空间 大 小 的 虚 存 空间 。 

e。 应 用 程序 执行 的 用 户 态 CPU 特 权 级 : 在 用 户 态 CPU 特 权 级 ， 应 用 程序 只 能 执行 一 般 指 
令 ， 如 果 特 权 指 令 ， 结 果 不 是 无 效 就 是 产生 “执行 非法 指令 "异常 ; 

e 系统 调用 机 制 : 给 用 户 进 程 提供 “服务 窗口 

e 中 断 响 应 机 制 : 给 用 户 进程 设置 “中 断 窗口 *， 这 样 产生 中 断后 ， 当 前 执行 的 用 户 进程 将 被 
强制 打 断 ，CPU 控 制 权 将 被 操作 系统 的 中 断 服务 例 程 使 用 。 


用 户 态 进程 的 执行 过 程 分 析 


在 这 个 环境 下 运行 的 进程 就 是 用 户 进 程 。 那 如 果 用 户 进程 由 于 某 种 原因 下 面 进入 内 核 态 后 
那 在 内 核 态 执行 的 是 什么 呢 ? 还 是 用 户 进程 吗 ? 首先 分 析 一 下 用 户 进 程 这 样 会 进入 内 核 态 

呢 ? 回顾 一 下 lab1， 就 可 以 知道 当 产生 外 设 中 断 、CPU 执 行 异常 (比如 访 存 错 误 ) 、 陷 入 
(系统 调用 ) ， 用 户 进 程 就 会 切换 到 内 核 中 的 操作 系统 中 来 。 表 面 上 看 ， 到 内 核 态 后 ， 操 作 
系统 取得 了 CPU 控制 权 ， 所 以 现在 执行 的 应 该 是 操作 系统 代码 ， CU 
权 级 ， 所 以 操作 系统 的 执行 过 程 就 就 应 该 是 内 核 进 程 了 。 这 样 理解 忽略 了 操作 系统 的 具体 实 
现 。 如 果 考 虑 操作 系统 的 具体 实现 ， 应 该 如 果 来 理解 进程 呢 ? 


从 进程 控制 块 的 角度 看 ， 如 果 执 行 了 进程 执行 现场 (上 下 文 ) 的 切换 ， 就 认为 到 另外 一 个 进 
a 及 进程 的 分 界 点 1 2 丸 行进 程 切 换 的 前 后 eh 了 什么 呢 ? 其实 只 是 切换 
进程 的 页 表 和 相关 硬件 寄存 器 ， 这 些 信息 都 保存 在 进程 控制 块 中 的 相关 域 中 。 所 以 ， 我 们 


可 以 把 执行 应 用 程序 的 代码 一 直到 执行 操作 系统 中 的 进程 切换 处 为 止 都 认为 是 一 个 应 用 程序 
的 执行 人 并 程 。 因 为 在 这 个 过 程 中 ， 没 有 更 
换 到 另外 一 个 进程 控制 块 的 进程 的 页 表 和 相关 硬件 寄存 器 


从 指令 执行 的 角度 看 ， 如 果 再 仔细 分 析 一 下 操作 系统 这 个 软件 的 特点 并 细 化 一 下 进入 内 核 原 
因 ， 就 可 以 看 出 进一步 进行 划分 。 操 作 系 统 的 主要 功能 是 给 上 层 应 用 提供 服务 ， 管 理 整 个 计 
算 机 系统 中 的 资源 。 所 以 操作 系统 虽然 是 一 个 软件 ， 但 其 实 是 一 个 基于 事件 的 软件 ， 这 里 操 
作 系 统 需要 响应 的 事件 包括 三 类 : 外 设 中 断 、CPU 执 行 异 常 (比如 访 存 错误 ) 、 陶 入 (系统 
调用 ) 。 如 果 用 户 进程 通过 系统 调用 要 求 操作 系统 提供 服务 ， 那 么 用 户 进程 的 角度 看 ， 操 作 
系统 就 是 一 个 特殊 的 软件 库 (比如 相对 于 用 户 态 的 libc 库 ， 操 作 系 统 可 看 作 是 内 核 态 的 libc 
库 ) ， 完 成 用 户 进 程 的 需求 ， ee 站 程 "主观 ”执行 的 一 部 分 ， 即 用 户 进 
程 “ 知 道 " 操 作 系 统 要 做 的 事情 么 在 这 种 情况 下 ， 进 程 的 代码 空间 包括 用 户 态 的 执行 程序 和 
内 核 态 响应 用 户 进程 通过 ee 为 此 这 种 
情况 下 的 进程 的 内 存 虚 拟 空间 也 包括 两 部 分 : 用 户 态 的 虚 地 址 空间 和 核心 态 的 虚 地 址 空间 。 
但 如 果 此 时 发 生 的 事件 是 外 设 中 断 和 CPU 执行 异常 ， 虽 然 CPU 控 制 权 也 转 入 到 操作 系统 中 的 
， 但 这 些 内 核 执行 代码 执行 过 程 是 用 户 进程 “不 知道 "的 ， 是 另外 一 段 执行 逻辑 。 

么 在 这 种 情况 下 ， 实 际 上 是 执行 了 两 段 目标 不 同 的 执行 程序 ， 一 个 是 代表 应 用 程序 的 用 户 
， ， 一 个 是 代表 中 断 服 务 例 程 处 理 外 设 中 断 和 CPU 执行 异常 的 内 核 线程 。 这 个 用 户 进程 和 
内 核 线程 在 产生 中 断 或 异常 的 时 候 ，CPU 硬 件 就 完成 了 它们 之 间 的 指令 流 切 换 。 


用 户 进 程 的 运行 状态 分 析 


用 户 进程 在 其 执行 过 程 中 会 存在 很 多 种 不 同 的 执行 状态 ， 根 据 操作 系统 原理 ， 一 个 用 户 进程 
一 般 的 运行 状态 有 五 种 : 创建 (new) 态 、 就 绪 (ready) 态 、 运 行 (running) 态 、 等 待 
(blocked) 坊 、 退 出 (exit) 态 。 各 个 状态 之 间 会 由 于 发 生 了 某 事件 而 进行 状态 转换 。 进 程 
的 状态 转换 图 如 下 所 示 : 
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Ready 事件 发 生 Bl ocked 


但 在 用 户 进程 的 执行 过 程 中 ， 有 具体 在 哪个 时 间 段 是 出 于 上 述 状态 的 呢 ? 上述 状 态 是 如 何 转变 
的 呢 ? 首先 ， 我 们 看 创建 (new) 态 ， 操 作 系 统 完成 进程 的 创建 工作 ， 而 体现 进程 存在 的 就 是 
进程 控制 块 ， 所 以 一 旦 操作 系 病 创 建 耶 远程 挫 制 ， 则 可 以 认为 此 时 进程 就 已 经 存在 了 ， 但 
由 于 进程 能 够 运行 的 各 种 资源 还 没准 备 好 ， 所 以 此 时 的 进程 处 于 创建 (new) 态 。 创 建 了 进程 
控制 块 后 ， 进 程 并 不 能 就 执行 了 ， 还 需 准备 好 各 种 资源 ， 本 和 过 契 记 全 所 关 妆 的 诺 救 冯 让 
空间 ， 执 行 代码 ， 要 处 理 的 数据 等 都 准备 好 了 ， 则 此 时 进程 已 经 可 以 执行 了 ， 但 还 没有 被 操 
作 系 统 调度 ， 需 要 等 待 操作 系统 选择 这 个 进程 执行 ， 于 是 把 这 个 做 好 “执行 准备 "的 进程 放 入 到 
一 个 队列 中 ， 并 可 以 认为 此 时 进程 处 于 就 绪 (ready) 态 。 当 操作 系统 的 调度 器 从 就 绪 进 程 队 
列 中 选择 了 一 个 就 绪 进程 后 ， 通 过 执行 进程 切换 ， 就 让 这 RE 井 程 执行 了 ， 此 时 
进程 就 处 于 运行 (running) 态 了 。 到 了 运行 态 后 ， 会 出 现 三 种 事件 。 如 果 进 程 需要 等 待 某 个 
事件 〈 比 如 主动 睡眠 10 秒 钟 ， 或 进程 访问 某 个 内 存 空 间 ， 但 此 内 存 空 间 被 换 出 到 硬盘 swap 分 
区 中 了 ， 进 程 不 得 不 等 待 操作 系统 把 缓慢 的 硬盘 上 的 数据 重新 读 回 到 内 存 中 ) ， 那 么 操作 系 
统 会 把 CPU 给 其 他 进程 执行 ， 并 把 进程 状态 从 运行 (running) 态 转换 为 等 待 (blocked) 态 。 
如 果 用 户 进程 的 应 用 程序 逻辑 流程 执行 结束 了 ， 那 么 操作 系统 会 把 CPU 给 其 他 进程 执行 ， 并 
把 进程 状态 从 运行 (running) 态 转换 为 退出 (exit) 态 ， 并 准备 回收 用 户 进程 占用 的 各 种 资 
源 ， 当 把 表示 整个 进程 存在 的 进程 控制 块 也 回收 了 ， 这 进程 就 不 存在 了 。 在 这 整个 回收 过 程 
中 ， 进 程 都 处 于 退出 (exit) 态 。2 考 虑 到 在 内 存 中 存在 多 个 处 于 就 绪 态 的 用 户 进程 ， 但 只 
一 个 CPU， 所 以 为 了 公平 起 见 ， 每 个 就 续 坟 进程 都 只 有 有 限 的 时 间 片 段 ， 当 一 个 运行 态 的 进 
程 用 完了 它 的 时 间 片 段 后 ， 操 作 系统 会 剥夺 此 进程 的 CPU 使 用 权 ， 并 把 此 进程 状态 从 运行 
(running) 态 转换 为 就 绪 (ready) 态 ， 最 后 把 CPU 给 其 他 进程 执行 。 如 果 某 个 处 于 等 待 
(blocked) 态 的 进程 所 等 待 的 事件 产生 了 (比如 睡眠 时 间 到 ， 或 需要 访问 的 数据 已 经 从 硬 瘟 
换 入 到 内 存 中 ) ， 则 操作 系统 会 通过 把 等 待 此 事件 的 进程 状态 从 等 待 (blocked) 态 转 到 就 绪 
(ready) 态 。 这 样 进程 的 整个 状态 转换 形成 了 一 个 有 限 状 态 自动 机 。 
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有 了 上 述 对 用 户 进程 的 特征 分 析 后 ， 接 下 来 我 们 就 通过 跟踪 用 户 进程 的 整个 生命 周期 来 阅 壕 
用 户 进 程 管理 的 设计 与 实现 。 


创建 用 户 进程 


在 proj10 中 ， 和 由 已 经 完成 了 对 内 核 线程 的 创建 ， 但 与 用 户 进程 的 创建 过 程 相 比 ， 创 建 内 核 线 
程 的 过 程 还 远 远 不 够 。 而 这 两 个 创建 过 程 的 差异 本 质 上 就 是 用 户 进 程 和 内 核 线程 的 差异 决定 
的 。 


应 用 程序 的 组 成 和 编译 


首先 ， 我 们 要 有 一 个 应 用 程序 ， 这 里 我 们 假定 是 hello 应 用 程序 ， 在 user/hello.c 中 实现 ， 代 码 
如 下 : 


#include <stdio.h> 
#include <ulib.h> 


int 
main(void) { 
cprintf("Hello worild!!.\n"); 
cprintf("I am process %d.\n", getpid()); 
cprintf("hello pass.\n"); 
return 0; 


hello 应 用 程序 只 是 输出 一 些 字符 串 ， 并 通过 系统 调用 sys_getpid (在 getpid 有 函数 中 调用 ) 输出 
代表 hello 应 用 程序 执行 的 用 户 进程 的 进程 标识 --pid。 


首先 ， 我 们 需要 了 解 ucore 操 作 系 统 如 何 能 够 找到 hello 应 用 程序 。 这 需要 分 析 Ucore 和 hello 是 
如 何 编译 的 。 修 改 Makefile， 把 第 六 行 注释 掉 。 然 后 在 proj10.1 目 录 下 执行 nake， 可 得 到 如 下 
输出 : 


+ CC User/hello.c 


gcc -Iuser/ -fno-builtin -Wall -ggdb -m32 -gstabs -nostdinc -fno-stack-protector -Ili 
bs/ -Iuser/include/ -Iuser/libs/ -c user/hello.c -0o obj/user/hello.o 


ld -m elf_i386 -nostdlib -T tools/user.1d -o obj/_ user_hello.out obj/user/libs/in 
itcode.o obj/user/libs/panic.o obj/user/libs/stdio.o obj/user/libs/syscall.o obj/user/ 
libs/ulib.o obj/user/libs/umain.o obj/libs/hash.o obj/libs/printfmt.o obj/libs/rand.o 
obj/libs/string.o obj/user/hello.o 

ld -m elf_i386 -nostdlib -T tools/kerne1.1d -o bin/kernel obj/kern/init/entry.o ob 
j/kern/init/init.o ...... -b binary ...... obj/__user_hello.out 


从 中 可 以 看 出 ，hello 应 用 程序 不 仅仅 是 hello.c， 还 包含 了 支持 hello 应 用 程序 的 用 户 态 库 : 


。 user/libs/initcode.S : 所 有 应 用 程序 的 起 始 用 户 态 执行 地 址 ”start*， 调 整 了 EBP 和 ESP 
后 ， 调 用 umain 逻 数 。 

e。 user/libs/umain.c : 实现 了 umain 兄 数 ， 这 是 所 有 应 用 程序 执行 的 第 一 个 C 函 数 ， 它 将 调 
用 应 用 程序 的 main 函 数 ， 并 在 main 函 数 结束 后 调用 exit 函 数 ， 而 exit 函 数 最 终 将 调用 
SyS_exit 系 统 调用 ， 让 操作 系统 回收 进程 资源 。 

。 user/libs/ulib.[ch] : 实现 了 最 小 的 C 函 数 库 ， 除 了 一 些 与 系统 调用 无 关 的 函数 ， 其 他 有 函数 
是 对 访问 系统 调用 的 包装 。 

e user/libs/syscall.[ch] : 用 户 层 发 出 系统 调用 的 具体 实现 。 

。 User/libs/stdio.c : 实现 cprintf 函 数 ， 通 过 系统 调用 Sys_putc 来 完成 字符 输出 。 

。 User/libs/panic.c : 实现 panic/warn 有 函数 ， 通 过 系统 调用 SyS_exit 完 成 用 户 进 程 退 出 。 


除了 这 些 用 户 态 库 函 数 实现 外 ， 还 有 一 些 libs/*.[ch] 是 操作 系统 内 核 和 应 用 程序 共用 的 函数 实 
现 。 这 些 用 户 库 函数 其 实在 本 质 上 与 UNIX 系 统 中 的 标准 libc 没 有 区 别 ， 只 是 实现 得 很 简单 ， 但 
hello 应 用 程序 的 正确 执行 离 不 开 这 些 库 函数 。 


【注意 】libs/.[ch]、user/libs/.[ch]、user/*.[ch] 的 源码 中 没有 任何 特权 指令 。 


在 make 的 最 后 一 步 执 行 了 一 个 ld 命令 ， 把 hello 应 用 程序 的 执行 码 obj/user_hello.out 连 接 在 了 
ucore kernel 的 末尾 。 且 ld 命令 会 在 kernel 中 会 把 user_hello.out 的 位 置 和 大 小 记录 在 全 局 变 
量 _binary_objuser_hello_out_start 和 _binary_objuser_hello_ out _ size 中 ， 这 样 这 个 hello 用 
户 程 序 就 能 够 和 Ucore 内 核 一 起 被 bootloader 加 载 到 内 存 里 中 ， 并 且 通 过 这 两 个 全 局 变量 定位 
hello 用 户 程序 执行 码 的 起 始 位 置 和 大 小 。 而 到 了 lab6 的 实验 后 ，Ucore 会 提供 一 个 简单 的 文件 
系统 ， 那 时 所 有 的 用 户 程 序 就 都 不 再 用 这 种 方法 进行 加 载 了 。 


用 户 进 程 的 虚拟 地 址 空间 
在 tools/user.ld 描 述 了 用 户 程序 的 用 户 虚 拟 空间 的 执行 入 口 虚 拟 地 址 : 


SECTIONS { 
/* Load programs at this address: "." means the current address */ 
. = 0X800020 ， 


在 tools/kernel.ld 描 述 了 操作 系统 的 内 核 虚拟 空间 的 起 始 入 口 虚拟 地 址 : 


SECTIONS { 
/* Load the kernel at this address: "." means the current address */ 
，= OxCO100000; 


这 样 uUcore 把 用 户 进 程 的 虚拟 地 址 空间 分 了 两 块 ， 一 块 与 内 核 线程 一 样 ， 是 所 有 用 户 进程 都 共 
享 的 内 核 虚拟 地 址 空间 ， 映 射 到 同样 的 物理 内 存 空间 中 ， 这 样 在 物理 内 存 中 只 需 放置 一 份 内 
核 代码 ， 使 得 用 户 进程 从 用 户 态 进 入 核心 态 时 ， 内 核 代 码 可 以 统一 应 对 不 同 的 内 核 程序 ; 另 
外 一 块 是 用 户 虚 拟 地 址 空间 ， 虽 然 虚 拟 地 址 范围 一 样 ， 但 映射 到 不 同 且 没有 交集 的 物理 内 存 
空间 中 。 这 样 当 ucore 把 用 户 进程 的 执行 代码 ( 即 应 用 程序 的 执行 代码 ) 和 数据 ( 即 应 用 程序 
的 全 局 变量 等 ) 放 到 用 户 虚 拟 地 址 空间 中 时 ， 确 保 了 各 个 进程 不 会 “非法 "访问 到 其 他 进程 的 物 
理 内 存 空间 。 这 样 Ucore 给 一 个 用 户 进程 具体 设 定 的 虚拟 内 存 空间 (kern/mm/memlayout.h) 
如 下 所 示 : 


[Virtual memory map: Permissions 
kernel/user 
4G ----------- 一 -一 -一 - > 二- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 





和 -一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 0OxFB000000 
Cur. Page Table (Kern, RH) RW/-- PTSIZE 
VET ----------------- > +--------------------------------- + OxFACOO000 
Invalid Memory (+) -=-/-- 
KERNTOP —------------- > +--------------------------------- + OxF8000000 
| 
Remapped Physical Memory RH/-— KMEMSIZE 
RERNBASE ——--——-—-—-—-—-—- > 4 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 0OxC0000000 
Invalid Memory (+) | --/-- 
USERTOP —------------- > 4 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + OxB0O000000 
User stack | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


mn 


四 > 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + OxO00800000 
Invalid Memory ({*) --/-- 








USERBASE, USTAB----—-— De + OxO0200000 
Invalid Memory (+) Sep 
ee em + Ox00000000 


画 一 幅 图 ， 表 示 用 户 进 程 的 虚拟 地 址 空间 和 物理 地 址 空间 的 映射 关系 和 空间 布局 


创建 并 执行 用 户 进 程 


在 确定 了 用 户 进 程 的 执行 代码 和 数据 ， 以 及 用 户 进程 的 虚拟 空间 布局 后 ， 我 们 可 以 来 创建 用 
户 进程 了 。 在 proj10.1 中 第 一 个 用 户 进程 是 由 第 二 个 内 核 线程 initproc 通 过 把 hello 应 用 程序 执 
行 码 履 盖 到 initproc 的 用 户 庶 拟 内 存 空间 来 创建 的 ， 相 关 代 码 如 下 所 示 : 


// kernel execve - do SYS_exec syscall to exec a user program called by user_main kern 
el_thread 
static int 
kernel execve(const char *name, unsigned char *binary, size _t size) { 
int ret, len = strlen(name); 
asm volatile ( 
Wa ee ec 
"=a" (ret) 
"i" (T_SYSCALL), "0" (SYS exec), "d" (name), "c" (len), "b" (binary), "D" (s 
ize) 
"memory"); 
return ret,; 


#define __ KERNEL_EXECVE(name, binary, size) ({ 
cprintf("kernel execve: pid = %d, name = \"%s\".\n", 
current->pid, name); 


Po a 


kernel_execve(name, binary, (size_t)(size)); 


}) 


#define KERNEL EXECVE(x) ({ 
extern unsigned char _binary_obj UsSer_##x## out_start[], 





binary_obj USer_##x## _ out_size[]; 
__ KERNEL_EXECVE(#x, _binary_obj User_##xX## out_start, 
binary_obj USer_##x## out_size); 








el 





}) 


// init main - the second kernel thread used to create kswapd main & user_ main kernel 
threads 
static int 
init_main(void *arg) { 
#ifdef TEST 
KERNEL_EXECVE2(TEST, TESTSTART, TESTSIZE); 
#else 
KERNEL_EXECVE (hello); 
#endif 
panic("kernel execve failed.\n"); 
return 0; 


对 于 上 述 代码 ， 我 们 需要 从 后 向 前 按照 函数 / 宏 的 实现 一 个 一 个 来 分 析 。lnitproc 的 执行 主体 是 
init_main 亟 数 ， 这 个 函数 在 缺 省 情况 下 是 执行 宏 KERNEL _EXECVE(hello)， 而 这 个 宏 最 终 是 
调用 kernel_execve 兄 数 来 调用 SYS_exec 系 统 调用 ， 由 于 ld 在 链接 hello 应 用 程序 执行 码 时 定 
义 了 两 全 局 变量 : 


。 _binary_obj _user_hello_out_start : hello 执 行 码 的 起 始 位 置 
。 _binary_ obj _user_hello_ out _ size 中 : hello 执 行 码 的 大 小 


kernel _execve 把 这 两 个 变量 作为 SYS_exec 系 统 调 用 的 参数 ， 让 Ucore 来 创建 此 用 户 进程 。 当 
Ucore 收 到 此 系统 调用 后 ， 将 依次 调用 如 下 函数 


Vector128(Vvectors.S)--> _alltraps(trapentry.S)-->trap(trap.c)-->trap_dispatch(trap.c) 


全 


最 终 


-->syscall(syscall.c)-->sys_exec (syscall.c) -->do_execve(proc.c) 


通过 do_execve 函 数 来 完成 用 户 进程 的 创建 工作 。 此 函数 的 主要 工作 流程 如 下 : 


@ 首先 为 加 载 新 的 执行 码 做 好 用 户 态 内 存 空 间 清 空 准 备 。 如 果 mm 不 为 NULL， 则 设置 页 表 


为 内 核 空 间 页 表 ， 且 进一步 判断 mm 的 引用 计数 减 1 后 是 否 为 0， 如 果 为 0， 则 表明 没有 进 
gt 的 内 存 空间 ， 为 此 将 根据 mm 中 的 记录 ， 释 放 进 程 所 占用 户 空间 内 
存 和 进程 页 表 本 身 所 占 空 间 。 最 后 把 当前 进程 的 mm 内 存 管 理 指针 为 空 。 由 于 此 处 的 
0 ， 所 以 mm 为 NULL， 整 个 处 理 都 不 会 做 。 

接 下 来 的 一 步 是 加 载 应 用 程序 执行 码 到 当前 进程 的 新 创建 的 用 户 态 虚拟 空间 中 。 

及 到 读 ELF 格 式 的 文件 ， 申 请 内 存 空间 ， 建 立 用 户 态 虚 存 空间 ， es 
load_icode 郊 数 完成 了 整个 复杂 的 工作 。 


load icode 函 数 的 主要 工作 就 是 给 用 户 进 程 建立 一 个 能 够 让 用 户 进程 正常 运行 的 用 户 环境 。 此 
函数 有 一 百 多 行 ， 完 成 了 如 下 重要 工作 : 


1. 


调用 mm_create 函 数 来 申请 进程 的 内 存 管理 数据 结构 mm 所 需 内 存 空间 ， 并 对 mm 进行 初 
始 化 ; (mm_struct 的 介绍 载 第 三 章 3.3.5 小 节 ) 


.调用 setup_pgdir 来 申请 一 个 页 目录 表 所 需 的 一 个 页 大 小 的 内 存 空 间 ， 并 把 描述 ucore 内 核 


虚空 间 映 射 的 内 核 页 表 (boot_pgdir 所 指 ) 的 内 容 拷贝 到 此 新 目录 表 中 ， 最 后 让 mm- 
>pgdir 指 向 此 页 目录 表 ， 这 就 是 进程 新 的 页 目录 表 了 ， 且 能 够 正确 映射 内 核 庶 空 间 ; 


.根据 应 用 程序 执行 码 的 起 始 位 置 来 解析 此 ELF 格 式 的 执行 程序 ， 并 调用 mm_map 有 函数 根 


据 ELF 格 式 的 执行 程序 说 明 的 各 个 段 (代码 段 、 数 据 段 、BSS 段 等 ) 的 起 始 位 置 和 大 小 建 
立 对 应 的 vma 结 构 ， 并 把 vma 揪 入 到 mm 结构 中 ， 从 而 表明 了 用 户 进 程 的 合法 用 户 态 虚拟 
地 址 空间 ; (vma_struct 的 介绍 载 第 三 章 3.3.5 小 节 ) 


.调用 根据 执行 程序 各 个 段 的 大 小 分 配 物理 内 存 空 间 ， 并 根据 执行 程序 各 个 段 的 起 始 位 置 


确定 虚拟 地 址 ， 并 在 页 表 中 建立 好 物理 地 址 和 虚拟 地 址 的 映射 关系 ， 然 后 把 执行 程序 各 

个 段 的 内 容 拷贝 到 相应 的 内 核 虚拟 地 址 中 ， 至 此 应 用 程序 执行 码 和 数据 已 经 根据 编译 时 

设 定 地 址 放置 到 虚拟 内 存 中 了 ; 

需要 给 用 户 进程 设置 用 户 栈 ， 为 此 调用 mm_mmap 函 数 建立 用 户 栈 的 vma 结 构 ， 明 确 用 户 
栈 的 位 置 在 用 户 虚 空间 的 顶端 大 小 为 256 个 页 ， 即 1MB， 但 要 注意 ， 并 没有 给 用 户 栈 分 
配 实际 的 物理 内 存 ; 

至 此 ,进程 内 的 内 存 管理 yma 和 mm 数据 结构 已 经 建立 完成 ， 于 是 把 mm->pgdir 赋 值 到 cr3 

寄存 器 中 ， 即 更 新 了 用 户 进 程 的 虚拟 内 存 空间 ， 此 时 的 initproc 已 经 被 hello 的 代码 和 数据 
覆盖 ， 成 为 了 第 一 个 用 户 进程 ， 但 此 时 这 个 用 户 进程 的 执行 现场 还 没 建立 好 ; 

先 清空 进程 的 中 断 帧 ， 再 重新 设置 进程 的 中 断 帧 ， 使 得 在 执行 中 断 返 回 指令 *“iret" 后 ， 能 

够 让 CPU 转 到 用 户 态 特权 级 ， 并 回 到 用 户 态 内 存 空间 ， 使 用 用 户 态 的 代码 段 、 数 据 段 和 

堆栈 ， 且 能 够 跳 转 到 用 户 进程 的 第 一 条 指令 执行 ， 并 确保 在 用 户 态 能 够 响应 中 断 ; 


tf->tf_ cs = USER_CS ， 
tf->tf ds = USER_DS ， 
tf->tf_es = USER_DS ， 
tf->tf_ss = USER_DS ， 
tf->tf_esp = USTACKTOP 
tf->tf_eip = elf->e_entry; 
tf->tf_eflags = FL_IF; 


至 此 ， 用 户 进程 的 用 户 环 境 已 经 搭建 完毕 。 此 时 initproc 将 按 产生 系统 调用 的 函数 调用 路 径 原 
路 返回 ， 执 行 中 断 返 回 指令 “iret” 〈 位 于 trapentry.S 的 最 后 一 句 ) 后 ， 将 切换 到 用 户 进程 hello 
的 第 一 条 语句 位 置 _start 处 (位 于 user/libs/initcode.S 的 第 三 句 ) 开始 执行 。 


基于 时 间 事 件 的 等 待 与 唤醒 


Clock (时 钟 ) 中 断 (irq0， 可 回顾 第 二 章 2.4 节 ) 可 给 操作 系统 提供 有 一 定 间 隔 的 时 间 事 件 ， 操 
作 系 统 将 其 作为 基本 的 计时 单位 ， 这 里 把 两 次 时 钟 中 断 之 间 的 时 间 间 隔 为 一 个 时 间 片 (timer 
splice) 。 基 于 此 时 间 片 ， 操 作 系 统 得 以 向 上 提供 基于 时 间 点 的 事件 ， 并 实现 基于 固定 时 间 长 
度 的 等 待 和 唤醒 机 制 。 在 每 个 时 钟 中 断 发 生 时 ， 操 作 系 统 可 产生 对 应 时 间 长 度 的 时 间 事 件 ， 
这 样 操作 系统 和 应 用 程序 可 基于 这 些 时 间 事 件 来 构建 基于 时 间 的 软件 设计 。 在 proj10.4 中 ， 实 
现 了 定时 器 timer 的 支持 。 


timer 数 据 结 构 
sched.h 定 义 了 有 关 timer 数 据 结构 ， 


typedef struct { 


unsigned int expires; // 到 期 时 间 
struct proc_struct *proc; // 等 待 时 间 到 期 的 进程 
list_entry_t timer_link; // 链 接 到 timer_1ist 的 链表 项 指针 


} timer_t; 


这 几 个 成 员 变 量 描述 了 一 个 timer (定时 器 ) 涉及 的 相关 因素 ， 首 先 一 个 expires 表 明了 这 个 定 
时 器 何 时 到 期 ， 而 第 二 个 成 员 变 量 描述 了 定时 器 到 期 后 需要 唤醒 的 进程 ， 最 后 一 个 参数 是 一 
个 链表 项 ， 用 于 把 自身 挂 到 系统 的 timer 链 表 上 ， 以 便于 扫描 查找 特定 的 timer 。 


timer 相 关 操 作 


一 个 timer 在 ucore 中 的 生存 周期 可 以 被 描述 如 下 : 


1， 某 进程 创建 和 初始 化 timer_t 结 构 的 一 个 timer， 并 把 timer 被 加 入 系统 timer 管 理 列表 
timer_list 中 ， 进 程 设置 为 基于 timer 事 件 的 阻塞 态 ( 即 睡眠 了 ) ， 这 样 这 个 timer 就 诞生 
了 ，; 

2， 系 统 时 间 通 过 时 钟 中 断 被 不 断 系 加 ， 且 ucore 定 期 检查 是 否 有 茶 个 timer 的 到 期 时 间 已 经 到 
了 ， 如 果 没 有 到 期 ， 则 Ucore 等 待 下 一 次 检查 ， 此 timer 会 挂 在 timer_list 上 继续 存在 ; 

3， 如 果 到 期 了 ， 则 对 应 的 进程 又 处 于 就 绪 态 了 ， 并 从 系统 timer 管 理 列 表 timer_list 中 移 除 该 
timer， 自 此 timer 就 死亡 退出 了 。 


基于 上 述 timer 生 存 周 期 的 流程 ， 与 timer 相 关 的 函数 如 下 : 


。 timer init : 对 timer 的 成 员 变 量 进行 初始 化 ， 设 定 了 在 expires 时 间 之 后 唤醒 proc 进 程 
。 add timer : 向 系统 timer 链 表 timer list 添 加 某 个 初始 化 过 的 timer， 这 样 该 timer 计 时 器 将 


在 指定 时 间 expires 后 被 扫描 到 ， 如 果 等 待 则 这 个 定时 器 timer 的 进程 处 在 等 待 状态 ， 并 将 
将 进程 唤醒 ， 进 程 将 处 于 就 绪 态 。 

。 del_timer : 向 系统 timer 链 表 timer_list 删 除 (或 者 说 取消 ) 茶 一 个 计时 器 。 该 计时 器 在 取 
消 后 ， 对 应 的 进程 不 会 被 系统 在 指定 时 刻 expires 唤 醒 。 

erun_ timer list : 被 trap 函 数 调 用 ， 遍 历 系统 timer 链 表 timer list 中 的 timer 计 时 器 ， 找 出 所 
有 应 该 到 时 的 timer 计 时 器 ， 并 唤醒 与 此 计时 器 相关 的 等 待 进程 ， 再 删除 此 timer 计 时 器 。 
在 lab4/proj13 以 后 ， 还 增加 了 对 进程 调度 器 在 时 间 事 件 产生 后 的 处 理 函 数 的 调用 (在 后 
续 有 进一步 分 析 ) 。 


有 了 这 些 函 数 的 支持 ， 我 们 就 可 以 实现 进程 睡觉 并 被 定时 唤醒 的 功能 了 。 比 如 ucore 在 用 户 函 
数 库 中 提供 了 sleep 函 数 ， 当 用 户 进程 调 用 Sleep 函数 后 ， 会 进一步 调用 Sys_sleep 系 统 调 用 ， 
在 内 核 中 完成 sys_sleep 系 统 调用 服务 的 是 do_sleep 内 核 函 数 ， 其 实现 如 下 : 


int 
do_sleep(unsigned int time) { 
timer_t _ timer, *timer = timer_init(& timer, current, time); 
current->state = PROC_SLEEPING ， 
current->wait_state = WT_TIMER; 
add_timer(timer); 
schedule(); 
del_timer(timer); 
return 0; 


可 以 看 出 ，do_sleep 首 先 初 始 化 了 一 个 定时 器 timer， 设 置 了 timer 的 proc 是 当前 进程 ， 到 期 时 
间 expires 是 参数 time ; 然后 把 当前 进程 的 状态 设置 为 等 待 状态 ， 且 等 待 原因 是 等 茶 个 定时 器 
到 期 ; 再 调用 schedule 完 成 进程 调度 与 切换 ， 这 时 当前 进程 已 经 不 占用 CPU 执 行 了 。 当 定时 
器 到 期 后 ，run_timer_list 会 删除 timer 且 唤醒 timer 对 应 的 当前 进程 ， 从 而 使 得 当前 进程 可 以 继 
续 执行 。 


进程 退出 和 等 待 进程 


当 进 程 执行 完 它 的 工作 后 ， 就 需要 执行 退出 操作 ， 释 放 进 程 占 用 的 资源 。Ucore 分 了 两 步 来 完 
成 这 个 工作 ， 首 先 由 进程 本 身 完 成 大 部 分 资源 的 占用 内 存 回 收工 作 ， 然 后 由 此 进程 的 父 进程 
完成 剩余 资源 占用 内 存 的 回收 工作 。 为 何不 让 进程 本 身 完成 所 有 的 资源 回收 工作 呢 ? 这 是 因 
为 进程 要 执行 回收 操作 ， 就 表明 此 进程 还 存在 ， 还 在 执行 指令 ， 这 就 需要 内 核 栈 的 空间 不 能 
释放 ， 且 表示 进程 存在 的 进程 控制 块 不 能 释放 。 所 以 需要 父 进程 来 帮忙 释放 子 进程 无 法 完成 
的 这 两 个 资源 回收 工作 。 


为 此 在 用 户 态 的 函数 库 中 提供 了 exit 函 数 ， 此 函数 最 终 访问 Sys_exit 系 统 调用 接口 让 操作 系统 
来 帮助 当前 8 和 程 中 的 部 分 资源 回收 。 我 们 Se oe rh 
的 。 需 要 注意 ， 分 实现 在 proj10.2 中 才 完 成 。 所 以 我 们 这 里 是 基于 proj10.2 的 代码 来 进 
分 析 。 


首先 ，exit 部 数 会 把 一 个 退出 码 error_code 传 递 给 Ucore，UCore 通 过 执行 内 核 函 数 do exit 来 完 
成 对 当前 进程 的 退出 处 理 ， 主 要 工作 简单 地 说 就 是 回收 当前 进程 所 占 的 大 部 分 内 存 资 源 ， 并 
通知 父 进程 完成 最 后 的 回收 工作 ， 具 体 流程 如 下 : 


1， 如果 current->mm != NULL ， 表示 是 用 户 进程 ， 则 开始 回收 此 用 户 进 程 所 占用 的 用 户 态 虚 
拟 内 存 空间 ; 


a. 首先 执行 "Ilcr3(boot 3 ， 切换 到 内 核 态 的 页 表 上 ， 这 样 当前 用 户 进程 目前 只 色 
核 虚 拟 地 址 空间 执行 了 ， 这 是 为 了 确保 后 续 释 放 用 户 态 内 存 和 进程 页 表 的 工作 能 够 
执行 ; 


世 在 内 
正常 


b. 如 果 当 前 进程 控制 块 的 成 员 变 量 mm 的 成 员 变量 mm_count 减 1 后 为 0 (表明 这 个 mm 没 
有 再 被 其 他 进程 共享 ， 可 以 彻底 释放 进程 所 占 的 用 户 虚 拟 空 间 了 。) ， 则 开始 回收 用 户 
进程 所 占 的 内 存 资 源 : 


o 调用 exit mmap 函 数 释放 current->mm->vma 链 表 中 每 个 vyma 描 述 的 进程 合法 空间 中 
实际 分 配 的 内 存 ， 然 后 把 对 应 的 页 表 项 内 容 清空 ， 最 后 还 把 页 表 所 占用 的 空间 释放 
并 把 对 应 的 页 目录 表 项 清空 ; 
o 调用 put_pgdir 函 数 释放 当前 进程 的 页 目录 所 点 的 内 存 ; 
o 调用 mm_destroy 函 数 释放 mm 中 的 vma 所 占 内 存 ， 最 后 释放 mm 所 占 内 存 ; 
Cc. 此 时 设置 current->mm 为 NULL ， 表 示 与 当前 进程 相关 的 用 户 虚 拟 内 存 空间 和 对 应 的 内 
存 管 理 成 员 变 量 所 占 的 内 核 虚拟 内 存 空间 已 经 回收 完毕 ; 


er A ee de el 
current->exit_code=error_code。 此 时 当前 进程 已 经 不 能 被 调度 了 ， 需 要 此 进程 的 父 
来 做 最 后 的 回收 工作 ( 即 回收 描述 此 进程 的 内 核 栈 和 进程 控 御 ps ; 


3.， 如 果 当 前 进程 的 父 进程 current->parent 处 于 等 待 子 进程 状态 ( 即 current->parent- 
>wait_state==WT_CHILD) ， 则 唤醒 父 进程 〈《 即 执行 “wakup_proc(current- 
>parent)”) ， 让 父 进程 帮助 自己 完成 最 后 的 资源 回收 工作 ; 


4. 如 果 当 前 进程 还 有 子 进程 ， 则 需要 把 这 些 子 进程 的 父 进 程 指针 设置 为 内 核 线程 initproc， 
且 各 个 子 进 程 指针 需要 插入 到 initproc 的 子 进 程 链表 中 。 如 果 某 个 子 进程 的 执行 状态 是 
PROC ZOMBIE， 则 需要 唤醒 initproc 来 完成 对 此 子 进程 的 最 后 回收 工作 。 


5， 执 行 schedule() 函 数 ， 选 择 新 的 进程 执行 。 


那么 父 进程 如 何 完成 对 子 进 程 的 最 后 回收 工作 呢 ? 这 要 求 父 进程 要 执行 wait 用 户 函 数 或 
wait_pid 用 户 函 数 ， 这 两 个 函数 的 区 别 是 ，wait 函 数 等 待 任意 子 进程 的 结束 通知 ， 而 wait_pid 
函数 等 待 进程 id 号 为 pid 的 子 进 程 结束 通知 。 这 两 个 函数 最 终 访 问 sys_wait 系 统 调 用 接口 让 
Ucore 来 完成 对 子 进 程 的 最 后 回收 工作 ， 即 回收 子 进程 的 内 核 栈 和 进程 控制 块 所 占 内 存 空间 ， 
具体 流程 如 下 : 


1. 如 果 pid!=0， 表 示 只 找 一 个 进程 id 号 为 pid 的 退出 状态 的 子 进 程 ， 否 则 找 任意 一 个 处 于 退出 
状态 的 子 进程 ; 

2 如果 此 子 进程 的 执行 状态 不 为 PROC_ZOMBIE， 表 明 此 子 进 程 还 没有 退出 ， 则 当前 进程 
只 好 设置 自己 的 执行 状态 为 PROC_SLEEPING， 有 睡眠 原因 为 NT_CHILD ( 即 等 待 子 进程 
退出 ) ， 调 用 schedule() 有 函数 选择 新 的 进程 执行 ， 自 己 睡 眠 等 待 ， 如 果 被 唤醒 ， 则 重复 跳 


回 步骤 1 处 执行 ; 
3， 如 果 此 子 进程 的 执行 状态 为 PROC _ ZOMBIE， 表明 此 子 进程 处 于 退出 状态 ， 需 要 当前 进 
程 ( 即 子 进程 的 父 进 程 ) 完成 对 子 进程 的 最 终 回收 工作 ， 即 首先 把 子 进 程控 制 块 从 两 个 


进程 队列 proc_ a _list 中 删除 ， 并 释放 子 进程 的 内 核 堆 栈 和 进程 控制 块 。 自 此 ， 子 
进程 才 彻 底 地 结束 了 它 的 执行 过 程 ， 消 除了 它 所 占用 的 所 有 资源 。 


【问题 】 哪 些 资 源 是 子 进程 无 法 回收 ， 需 要 父 进程 帮忙 回收 的 ? 


Eo 程 执 和 打下 SS exit 系 统 调用 ， 但 父 进 程 还 没有 执行 Sys_wait 系 统 调用 的 情况 
下 ， 子 进程 还 能 正常 通知 父 进程 让 父 进 程 回 收 子 进程 最 后 无 法 回收 的 子 进 程 所 占 资 源 吗 ? 


系统 调用 实现 


< 人 


系统 调用 的 英文 名 字 是 System Call。 操 作 系 统 为 什么 需要 实现 系统 调用 呢 ? 其实 这 是 实现 
用 户 进程 后 ， 自 然 引申 出 来 需要 实现 的 操作 系统 功能 。 用 户 进程 只 能 在 操作 系统 给 它 圈定 好 
的 "用 户 环境 "中 执行 ， 但 “用 户 环 境 " 限 制 了 用 户 进 程 能 够 执行 的 指令 ， 即 用 户 进程 只 能 执行 一 
般 的 指令 ， 无 法 执行 特权 指令 。 如 果 用 户 进程 想 执行 一 些 需要 特权 指令 的 任务 ， 比 如 通过 网 

卡 发 网 络 包 等 ， 只 能 让 操作 系统 来 代劳 了 。 于 是 就 需要 一 种 机 制 来 确保 用 户 进程 不 能 执行 特 
权 指 令 ， 但 能 够 请 操作 系统 “帮忙 ?完成 需要 特权 指令 的 任务 ， 这 种 机 制 就 是 系统 调用 。 


采用 系统 调用 机 制 为 用 户 进 程 提供 一 个 获得 操作 系统 服务 的 统一 接口 层 ， 这 样 一 来 可 简化 用 
户 进程 的 实现 ， 把 一 些 共 性 的 、 繁 琐 的 、 与 硬件 相关 、 与 特权 指令 相关 的 任务 放 到 操作 系统 
层 来 实现 ， 但 提供 一 个 简洁 的 接口 给 用 户 进 程 调 用 ; 二 来 这 层 接 口 事先 可 规定 好 ， 且 严格 检 
查 用 户 进程 传递 进来 的 参数 和 操作 系统 要 返回 的 数据 ， 使 得 让 操作 系统 给 用 户 进程 服务 的 同 
时 ， 保 护 操作 系统 不 会 被 用 户 进程 破坏 。 


从 硬件 层面 上 看 ， 需 要 硬件 能 够 支持 在 用 户 态 的 用 户 进程 通过 某 种 机 制 切换 到 内 核 态 。 在 第 
二 章 的 2.4 节 和 2.5 节 讲述 中 断 硬件 支持 和 软件 处 理 过 程 其 实 就 可 以 用 来 完成 系统 调用 所 需 的 软 
硬件 支持 。 下 面 我 们 来 看 看 如 何在 ucore 中 实现 系统 调用 。 


初始 化 系统 调用 对 应 的 中 断 描 述 符 


在 Ucore 初 始 化 函数 kern_init 中 调用 了 idt_init 骂 数 来 初始 化 中 断 描述 符 表 。 在 proj10.1 以 前 的 一 
个 proj4.4.1 (其 实 proj4.4.1 就 是 为 proj10.1 做 准备 的 ) 中 ， 为 了 实现 了 从 用 户 态 返回 到 内 核 态 
的 功能 ， 设 置 了 一 个 特定 中 断 号 T_ SWITCH_TOK 的 中 断 门 ， 让 用 户 态 程序 通过 执行 一 个 特殊 
的 指令 “INT 中 断 号 "来 完成 从 用 户 态 到 内 核 态 的 切换 ， 这 个 中 断 号 就 是 T SWITCH_TOK 。 
proj10.1 参 考 proj4.4.1 的 做 法 ， 首 先 要 设置 一 个 特定 中 断 号 的 中 断 门 ， 专 门 用 于 用 户 进 程 访问 
系统 调用 。 此 事由 ide_ init 函数 完成 : 


void 
idt_init(void) { 
extern uintptr_t _ vectors[]; 
nt 
for (i = 0; i < sizeof(idt) / sizeof(struct gatedesc); i ++) { 
SETGATE(idt[i], 1, GD_KTEXT, _ vectors[i], DPL_KERNEL); 
} 
SETGATE(idt[T_SYSCALL], 1, GD_KTEXT, __vectors[T_SYSCALL], DPL_USER); 
lidt(&idt_pd); 


在 上 述 代码 中 ， 可 以 看 到 在 执行 加 载 中 断 描述 符 表 lidt 指 令 前 ， 专 门 设置 了 一 个 特殊 的 中 断 描 
述 符 idt[T_SYSCALL]， 它 的 特权 级 设置 为 DPL_USER， 中 断 向 量 处 理 地 址 在 

_ vectors[T_ SYSCALL] 处 。 这 样 建立 好 这 个 中 断 描述 符 后 ， 一 旦 用 户 进程 执行 “INT 
T_SYSCALL" 后 ， 由 于 此 中 断 允 许 用 户 态 进程 产生 (注意 它 的 特权 级 设置 为 DPL_USER ) ， 
所 以 CPU 就 会 从 用 户 态 切 换 到 内 核 态 ， 保 存 相关 寄存 器 ， 并 跳 转 到 _vectors[T_SYSCALL] 处 
开始 执行 ， 形 成 如 下 执行 路 径 : 


vector128(vectors.S)--> _alltraps(trapentry.S)-->trap(trap.c)-->trap_dispatch(trap.c) 


-->syscall(syscall.c)- 


在 Syscall 中 ， 根 据 系统 调用 号 来 完成 不 同 的 系统 调用 服务 。 


建立 系统 调用 的 用 户 库 准 备 


在 操作 系统 中 初始 化 好 系统 调用 相关 的 中 断 描 述 符 、 中 断 处 理 起 始 地 址 等 后 ， 还 需 在 用 户 态 
的 应 用 程序 中 初始 化 好 相关 工作 ， 简 化 应 用 程序 访问 系统 调用 的 复杂 性 。 为 此 在 用 户 态 建立 
了 一 个 中 间 层 ， 即 简化 的 libc 实 现 ， 在 user/libs/ulib.[ch] 和 user/libs/syscall.[ch] 中 完成 了 对 访问 
系统 调用 的 封装 。 用 户 态 最 终 的 访问 系统 调用 函数 是 syscall， 实 现 如 下 : 


static inline int 
syscall(int num, ...) { 
va_list ap; 
va_start(ap, num); 
uint32_t a[MAX_ARGS]; 
Nl 
for (i = 0; i < MAX_ARGS; i ++) { 
a[i] = va_arg(ap, uint32_t); 
} 


va_end(ap); 


asm volatile ( 
"int %1;" 
: "=a" (ret) 
SYSCALSY 
"a" (num), 
"d" (a[0]), 
"c™ (a[1]), 
"b" (a[2]), 
"D™ (a[3]), 
"Ss" (a[4]) 
: "cece", “memory"); 
return ret,; 


从 中 可 以 看 出 ， 应 用 程序 调用 的 exit/fork/wait/getpid 等 库 函 数 最 终 都 会 调用 syscall 函 数 ， 只 是 
调用 的 参数 不 同 而 已 ， 如 果 看 最 终 的 汇编 代码 会 更 清楚 : 


34: 8b 55 d4 mov -Qx2c(%ebp),%edx 
3 8b 4d d8 mov -OQx28(%ebp),%ecx 
3a: 8b 5d dc mov -0Xx24(%ebp )，%ebx 
3d : 8b 7d eg0 mov -OQx20(%ebp),%edi 
40: 8b 75 e4 mov -OQxic(%ebp),%esi 
435 8b 45 08 mov QOx8(%ebp),%eax 

46: cd 80 int $0x80 

48: 89 45 f0 mov %eax, -Ox10(%ebp) 


可 以 看 到 其 实 是 把 系统 调用 号 放 到 EAX， 其 他 5 个 参数 a[0]~a[4] 分 别 保 存 到 
EDX/ECX/EBX/EDI/ESI 五 个 寄存 器 中 ， 及 最 多 用 6 个 寄存 器 来 传递 系统 调用 的 参数 ， 且 系统 
人 比如 对 于 getpid 库 函数 而 言 ， 系 统 调 用 号 (SYS getpid=18) 是 保存 
在 EAX 中 ， 返 回 值 (调用 此 库 函 数 的 的 当前 进程 号 pid) 也 在 EAX 中 。 


与 用 户 进 程 相 关 的 系统 调用 


在 proj10.1 中 ， 与 进程 相关 的 各 个 系统 调用 属性 如 下 所 示 : 


系统 调用 名 含义 具体 完成 服务 的 函数 

SYS exit process exit do_exit 

SYS fork create child process, do fork-->wakeup_proc 
dup mm 

SYS wait wait child process do_wait 

SYS exec after fork, process load a program and 
execute a new program refresh the mm 

SYS clone create child thread do fork-->wakeup_proc 

SYS yield process flag iself need proc->need sched=1, 
resecheduling then scheduler will 

rescheule this process 
SYS_sleep process sleep do sleep 
SYS_kill kill process do kill-->proc->flags |= PF_EXITING, 


->wakeup_ proc—>do_wait—>do_ exit 


SYS_getpid get the process's pid 


通过 这 些 系统 调用 ， 可 方便 地 完成 从 进程 /线程 创建 到 退出 的 整个 运行 过 程 。 


系统 调用 的 执行 过 


与 用 户 态 的 函数 库 调 用 执行 过 程 相 比 ， 系 统 调 用 执行 过 程 的 有 四 点 主要 的 不 同 : 


是 通过 "CALL? 指 令 而 是 通过 “NT 指令 发 起 调用 ; 

是 通过 “RET” 指 令 ， 而 是 通过 “IRET” 指 令 完成 调用 返回 ; 

当 到 达 内 核 态 后 ， 操 作 系 统 需 要 严格 检查 系统 调用 传递 的 参数 ， 确 保 不 破坏 整个 系统 的 
区 全 性 ; 


e。 执行 系统 调用 可 导致 进程 等 待 某 事 件 发 生 ， 从 而 可 引起 进程 切换 ; 


【3 
竺 六 财 罗 溯 


下 面 我 们 以 getpid 系 统 调用 的 执行 过 程 大 致 看 看 操作 系统 是 如 何 完 成 整个 执行 过 程 的 。 当 用 户 
进程 调用 getpid 函 数 ， 最 终 执行 到 "INTT_SYSCALL" 指 令 后 ，CPU 根 据 操作 系统 建立 的 系统 
调用 中 断 描述 符 ， 转 入 内 核 态 ， 并 跳 转 到 vector128 处 〈kern/trap/vectors.S) ， 开 始 了 操作 系 
统 的 系统 调用 执行 过 程 ， 兄 数 调用 和 返回 操作 的 关系 如 下 所 示 : 


vector128(vectors.S)--> _alltraps(trapentry.S)-->trap(trap.c)-->trap_dispatch(trap.c) 


-->syscall(syscall.c)-->sys_getpid(syscall.c)-->.....-->_ trapret(trapentry.S) 


在 执行 trap 元 数 前 ， 软 件 还 需 进 一 步 保存 执行 系统 调用 前 的 执行 现场 ， 即 把 与 用 户 进程 继续 执 
行 所 需 的 相关 寄存 器 等 当前 内 容 保 存 到 当前 进程 的 中 断 帧 trapframe 中 (注意 ， 在 创建 进程 
是 ， 把 进 i 进程 的 内 核 栈 分 配 的 空间 的 顶部 ) 。 软 件 做 的 工作 在 vector128 
和 alltraps 的 起 始 部 分 


vectors.S::Vector128 起 始 处 ; 
pushl $0 
pushl1 $128 


trapentry.S:: alltraps 起 始 处 : 
pushl %ds 

pushl %es 

pushal 


自 此 ， 用 于 保存 用 户 态 的 用 户 进程 执行 现场 的 trapframe 的 内 容 境 写 完毕 ， 操 作 系 统 可 开始 完 
成 具体 的 系统 调用 服务 。 在 sysgetpid 兄 数 中 ， 简 单 地 把 当前 进程 的 pid 成 员 变 量 做 为 函数 返回 
值 就 是 一 个 具体 的 系统 调用 服务 。 完 成 服务 后 ， 操 作 系 统 按 调用 关系 的 路 径 原 路 返回 到 
_alltraps 中 。 然 后 操作 系 py 当前 进 0 中 断 帧 内 容 做 恢复 执行 现场 操作 。 其 实 就 是 把 
trapframe 的 一 部 分 内 容 保存 到 寄存 器 。 恢 复 寄 存 器 内 容 结束 后 ， 调 整 内 核 堆栈 指针 到 中 
断 帧 的 二 eip 处 ， 这 是 内 核 栈 的 双 ， 


/* below here defined by x86 hardware */ 
uintptr_t tf_eip; 
uint16 t tf_cs; 
uint16_t tf_padding3; 
uint32_t tf_eflags; 
/* below here only when crossing rings */ 
uintptr_t tf_esp; 
uint16 t tf_ss; 
uint16_t tf_padding4; 


这 时 执行 "IRET" 指 令 后 ，CPU 根 据 内 核 栈 的 情况 回复 到 用 户 态 ， 并 把 EIP 指 向 feip 的 值 ， 
即 "INTT_SYSCALL" 后 的 那 条 指令 。 这 样 整个 系统 调用 就 执行 完毕 了 。 


基于 内 核 线程 实现 全 局 内 存 页 替换 机 制 


实验 目标 


到 proj11 为 止 ， 还 没有 能 够 在 ucore 中 实现 一 个 完整 的 内 存 页 替换 机 制 。 但 其 实在 lab2 的 proj8 
中 ， 已 经 为 ucore 实 现 内 存 页 替换 机 制 提 供 了 大 量 的 支持 ， 并 在 相关 测试 函数 
kern/mm/swap.c::check swap 中 进行 了 检查 。 但 这 个 检查 只 是 说 明了 proj8 提 供 了 能 够 完成 内 
存 页 替换 机 制 的 数据 结构 和 了 有 函数 支持 ， 即 已 经 一 砖 一 瓦 地 完成 了 门窗 、 墙 壁 等 建筑 工作 ， 还 
差 把 相关 部 件 完整 组 织 起 来 实现 成 一 个 完整 的 房子 。proj11 就 是 完成 这 最 后 一 步 ， 采 用 内 核 线 
程 来 实现 内 存 页 替换 机 制 ， 使 得 用 户 进程 在 快 用 完 内 存 后 ， 可 以 通过 内 存 页 ，。 
用 的 页 换 出 到 硬盘 swap 分 区 中 ， 常 用 的 页 保存 在 内 存 中 ， 保 持 系统 中 有 足够 的 内 存 给 用 户 进 
程 使 用 。 


proj11 概 述 
实现 描述 


proj11 是 lab3 的 第 六 个 project。 它 在 proj10.4 的 基础 上 实现 了 基于 内 核 线程 的 内 存 页 替换 机 

， 主 要 扩展 设计 了 专门 用 于 执行 内 存 页 替换 的 内 核 线程 kswapd， 并 增加 了 等 待 队列 、 扩 展 
进程 控制 块 的 成 员 变 量 mm 的 等 ， 使 得 在 用 户 进程 申请 存 不 足 或 系统 空闲 内 存 不 足 的 情况 

。 ， 通过 执行 kswapd 内 存 线程 ， 实现 内 存 页 替换 ， 把 不 常用 的 页 放 到 硬盘 swap 分 区 上 ， 给 系 

统 提供 足够 的 空闲 空间 。 


项 目 组 成 


上 一 pmm .c 
| 一 swap.c 
| 一 swap .h 
一 vmm.c 


-一 vmm.h 


一 process 





一 wait.c 


[一 wait.h 





[一 user 
| 一 cowtest .c 
| 一 swaptest.c 


17 directories, 114 files 


相对 于 proj10.4，proj11 在 内 核 方面 主要 增加 了 有 关 kswapd 内 核 线 程 和 相关 函数 以 及 等 待 队列 
实现 ， 在 用 户 程序 方面 ， 增 加 测试 ucore 的 COW 实 现 的 用 户 程序 cowtest.c 和 测试 内 存 页 置换 
实现 的 Swaptest.c。 主 要 修改 和 增加 的 文件 如 下 : 


。 kern/mm/pmm.c : 扩展 了 alloc_pages 了 有 函数， 使 得 它 能 够 在 没有 获得 所 需 空 闲 内 存 页 后 ， 
进一步 调用 tre_free_pages 来 要 求 ucore 释 放 足 够 的 空闲 页 ， 从 而 再 次 要 求 所 需 空闲 页 ， 
直到 要 求 得 到 满足 为 止 。 

。 kern/mm/swap.[ch] : 更 新 try_free_pages 的 实现 ， 完 成 让 当前 进程 睡眠 ， 并 唤醒 kswapd 
内 核 线程 ， 让 它 完 成 对 空闲 页 的 回收 。 同 时 实现 了 内 核 线程 kswapd 的 执行 主体 
kswapd_main 函 数 ， 此 函数 完成 具体 的 内 存 页 置换 机 制 。 

。 kern/sync/wait.[ch] : 实现 等 待 队列 机 制 ， 使 得 内 存 页 等 资源 无 法 得 到 满足 的 进程 能 够 处 
于 等 待 状态 ， 并 在 资源 得 到 满足 后 让 进程 继续 执行 。 

。 kern/mm/vmm.[ch] : 扩展 了 mm_struct 结 构 ， 并 修改 相关 函数 ， 使 得 所 有 进程 的 成 员 变量 
mm 能 够 链 入 到 全 局 mm_struct 结 构 的 链表 proc_mm list 中 。 


编译 并 运行 proj11 的 命令 如 下 : 


make 
make qemu 


则 可 以 得 到 如 下 显示 界面 


(THU.CST) os is loading ... 


Special kernel symbols: 

check_vmm( ) succeeded. 

ide 0: 10000(sectors), 'QEMU HARDDISK'. 
ide 1: 262144(sectors), 'QEMU HARDDISK'. 
check_swap() succeeded. 

++ Setup timer interrupts 

kernel execve: pid = 3, name = "swaptest". 
buffer size = 00500000 

parent init ok. 


child 9 fork ok, pid = 13. 
child 8 fork ok, pid = 12. 
child 7 fork ok, pid = 11. 
child 6 fork ok, pid = 10. 
child 5 fork ok, pid = 9 
child 4 fork ok, pid = 8 
child 3 fork ok, pid = 7， 
child 2 fork ok, pid = 6， 
child 1 fork ok, pid = 5 
child 0 fork ok, pid = 4 
check cow ok. 

round 0 

round 1 

round 2 

round 3 

round 4 

child check ok. 

wait ok. 


check buffer ok. 

swaptest pass. 

all user-mode processes have quit. 

init check memory pass ， 

kernel panic at kern/process/proc.c:430: 
initproc exit. 


Welcome to the kernel debug monitor!! 
Type 'help' for a list of commands. 
K> 


表面 上 看 不 出 上 述 输出 对 内 存 页 置换 算法 实现 的 具体 体现 。 不 过 通过 Makefile 和 对 swaptest.c 
程序 的 分 析 ， 还 是 能 够 看 出 proj11 的 执行 与 其 他 进程 的 执行 不 同 : 


Makefile: 


QEMUOPTS = -m 48m -hda $(UCOREIMG) -drive file=$(SWAPIMG),media=disk,cache=writeback 
swaptest.c 


const int size = 5 * 1024 * 1024; 
char *buffer; 


for (i = 0; i < pids; i ++) { 
if ((pid[i] = fork()) == 0) { 


通过 Makefile， 可 以 看 到 qemu 只 模拟 出 了 48MB 的 物理 内 存 空 间 ， 但 swaptest.c 创 建 了 10 个 子 
进程 ， 且 每 个 子 进 程 都 会 复制 全 局 变量 buffer， 且 会 对 buffer 中 的 所 有 元 素 进 行 写 操作 。 由 于 
每 个 buffer 的 空间 大 小 为 5SMB， 所 以 10 个 子 进 程 和 1 个 父 进 程 的 buffer 所 占 庶 拟 空 间 总 和 为 
55MB ， ee、 闻 。 而 在 操作 系统 设计 上 ， 用 户 进 程 的 用 户 空 间 人 
要 都 保存 在 内 存 中 ， 得 必须 把 某 些 页 换 出 到 硬盘 swap 分 区 才能 确保 所 有 子 进 程 都 能 
执行 完毕 。 为 此 ， Rs Re 中 ucore 具 体 的 内 存 页 置换 机 制 的 行 过 
程 。 下 面 将 从 实现 方面 对 此 进 一 步 阅 述 。 


等 待 队列 设计 与 实现 


为 了 支持 用 户 进程 完成 特定 事件 的 等 待 和 唤醒 操作 ，ucore 设 计 了 等 待 队列 ， 从 而 使 得 用 户 进 
程 可 以 方便 地 实现 由 于 某 事 件 没 有 完成 而 睡眠 ， 并 且 在 事件 完成 后 被 唤醒 的 整个 操作 过 程 。 


其 基本 设计 思想 是 : 当 一 个 进程 由 于 某 个 事件 没有 产生 而 需要 在 某 个 睡眠 等 待 时 ， 设 置 自身 
运行 状态 为 PROC_SLEEPING， 等 待 原因 为 某 事件 ， 然 后 将 自己 的 进程 控制 块 指针 和 等 待 标 

记 组 装 到 一 个 数据 结构 为 wait t 的 等 待 项 数据 中 ， 并 把 这 个 等 待 项 的 挂 载 到 等 待 队列 

wait queue 的 链表 中 ， 再 执行 Schedule 函数 完成 调度 切换 ; 当 某 些 事件 发 生 后 ， 另 一 个 任务 
(进程 ) 会 唤醒 等 待 队 列 wait_ queue 上 的 某 个 或 者 所 有 进程 ， 唤 醒 操 作 就 是 将 等 待 队列 

wait queue 中 的 等 待 项 中 的 进程 运行 状态 设置 为 可 调度 的 状态 ， 并 且 把 等 待 项 从 等 待 队列 中 

删除 。 下 面 是 等 待 队列 的 设计 与 实现 分 析 。 


数据 结构 描述 
等 待 项 的 定义 : 


typedef struct { 
struct proc_struct *proc; 
Uint32_t wakeup_flags; 
wait_queue_t *wait_queue; 
list_entry_t wait_link; 

} wait_t; 





这 里 等 待 项 的 成 员 变 量 proc 表 明了 等 待 某 事件 的 进程 控制 块 指针 ，wakeup flags 是 唤醒 进程 
的 事件 标志 (多 个 标志 可 以 有 逻辑 或 的 关系 ， 形 成 复合 事件 标志 ) ，wait queue 是 此 等 待 项 
所 属 的 等 待 队列 ，wait_link 用 于 链接 到 等 待 队列 wait_queue 中 。 


等 待 队列 的 定义 : 
typedef struct { 


list_entry_t wait_head; 
wait_ queue tt; 
q 





等 待 队列 就 是 一 个 双向 链表 的 头 指针 几 


等 待 队列 相关 操作 函数 


初始 化 


如 果 要 使 用 等 竺 队列， 首先 需要 声明 并 初始 化 等 待 队列 。 以 proj11 为 例 ， 在 kern/mm/swap.c 
中 有 一 个 等 待 队 列 的 变量 声明 和 在 swap_init 函 数 中 执行 的 对 应 初始 化 : 


static wait_ queue _t kswapd_done; 


wait_queue_init(&kswapd_done); 


执行 等 待 


如 果菜 进程 需要 等 待 某 事件 ， 则 需要 设置 自己 的 运行 状态 为 PROC _SLEEPING， 构 建 并 初始 
化 一 个 等 待 项 ， 再 挂 入 到 某 个 等 待 队列 中 。 以 proj11 为 例 ， 某 进程 申请 内 存 资源 无 法 满足 ， 需 
要 等 待 Kkswapd 内 核 线程 给 系统 更 多 的 内 核资 源 ， 于 是 在 try_free_pages 有 函数 中 执行 了 如 下 操 

作 : 


wait t wait, *wait = & wait， 
wait_init(wait, current); 
current->state = PROC_SLEEPING ， 
current->wait_state = WT_KSWAPD; 
wait_queue_add(&kswapd_done, wait); 


这 里 可 以 看 到 ， 首 先 声明 了 一 个 等 待 项 wait， 然 后 调用 wait_init 函 数 对 此 等 待 项 进行 了 初始 
化 ; 并 进一步 把 当前 进程 的 运行 状态 设置 为 PROC_SLEEPING ， 了 睡眠 原因 设置 为 
WT_KSWAPD， 即 等 竺 kswapd 释 放出 更 多 的 空间 内 存 ; 最 后 把 此 等 待 项 加 入 到 等 待 队列 
kwapd_done 中 。 


执行 唤醒 
当 某 个 事件 产生 后 ， 需 要 唤醒 等 待 在 等 待 队列 中 的 睡眠 进程 。 以 proj11 为 例 ， 当 kswapd 内 核 
线程 释放 出 更 多 的 空闲 内 存 后 ， 就 需要 唤醒 等 待 更 多 内 存 的 进程 ， 在 kswapd 内 核 线程 的 主体 
执行 函数 kswapd_main 中 调用 了 


kswapd_wakup_al1 函 数 : 
wakeup_queue(&kswapd_done, WT_KSWAPD, 1); 


这 个 函数 就 完成 了 唤醒 功能 ， 它 会 遍历 kswapd_done 等 待 队 列 上 的 所 有 等 待 项 ， 找 到 一 个 就 
执行 wakeup_wait 函 数 ， 来 进一步 调用 wakup_proc 函 数 来 唤醒 挂 在 等 待 项 上 的 睡眠 进程 。 

上 面 是 使 用 等 待 队列 的 基本 流程 。 为 了 能 够 更 好 地 完善 整个 基于 等 待 队列 的 等 待 唤醒 机 制 ， 
在 wait.[ch] 中 提供 了 一 系列 防 数 : 


e。 void wait_init : 初始 化 等 待 项 
e。 void wait queue init : 初始 化 等 待 队列 


void wait_queue_add : 把 一 个 等 待 项 加 入 到 一 个 等 待 队 列 中 

void wait_queue_del : 从 一 个 等 待 队 列 中 删除 一 个 等 待 项 

wait_t *wait_queue_next : 查找 挂 在 茶 等 待 队 列 中 的 等 待 项 指向 的 下 一 个 等 待 项 

wait_t *wait_queue_prev : 查找 挂 在 茶 等 待 队 列 中 的 等 待 项 指向 的 前 一 个 等 待 项 

wait_t *wait_queue_first : 查找 挂 在 某 等 待 队列 中 的 第 一 个 等 待 项 

wait_t *wait_queue_last : 查找 挂 在 茶 等 待 队 列 中 的 最 后 一 个 等 待 项 

bool wait_queue_empty : 判断 等 待 队 列 是 否 为 空 

bool wait in_queue : 单 品 茶 等 待 项 是 否 在 等 待 队列 中 

void wakeup_wait : 唤醒 等 待 项 中 的 睡眠 进程 ， 删 除 等 待 队 列 中 的 等 待 项 (参数 del 确 定 
是 否 删 除 ) 

void wakeup first : 唤醒 等 待 队列 中 第 一 个 等 待 项 中 的 睡眠 进程 ， 删 除 等 待 队 列 中 的 这 个 
等 待 项 (参数 del 确 定 是 否 删 除 ) 

void wakeup_queue : 唤醒 等 待 队列 中 所 有 等 待 项 中 的 睡眠 进程 ， 删 除 等 待 队列 中 的 对 应 
等 待 项 (参数 del 确 定 是 否 删 除 ) 


内 存 页 置换 机 制 的 执行 过 外 


在 lab2/proj8 中 已 经 完成 了 大 部 分 内 存 页 置换 所 需 的 功能 函数 ， 但 还 没有 有 机 地 整 和 在 ucore 
中 ， 成 为 ucore 内 存 管 理子 系统 的 组 成 部 分 。 当 有 了 内 核 线程 机 制 后 ， 我 们 就 可 以 把 内 存 页 置 
换 的 功能 整合 到 一 个 内 核 线 程 中 ， 从 而 实现 一 个 内 存 页 置换 线程 kswapd， 专 门 负责 完成 内 存 
页 置换 的 工作 。 


创建 kswapd 内 核 线程 


在 第 1 个 内 核 线程 initproc 的 主体 执行 函数 init main 中 ， 完 成 了 对 kswapd 内 核 线程 的 创建 工 
作 


static intinit main(void *arg) { int pid; if ((pid = kernel thread(kswapd_main, 
NULL, 0)) <= 0) { panic("kswapd init failed.\n"); } kswapd = find_proc(pi 
d); set_proc_name(kswapd, "kswapd"); 


并 且 保 存 了 创建 用 户 进程 前 剩余 页 的 情况 和 已 经 分 配 的 slab 的 容量 计数 ， 这 样 在 接 下 来 创建 完 
用 户 进程 ， 并 且 所 有 用 户 进程 执行 完毕 后 ， 再 判断 所 有 进程 结束 后 的 剩余 页 的 情况 和 已 经 分 
配 的 slab 的 容量 计数 ， 如 果 二 者 相等 ， 这 表明 内 存 管 理 功能 基本 正确 。 


> 





size t nr_free pages_ store = nr_free pages(); size t slab allocated store = slab allo 
cated(); 


cprintf("all user-mode processes have quit.\n"); 
en assert(nr_free pages_store == nr_free_pages()); assert(slab allocated_store = 
= slab_allocated( )); cprintf("init check memory pass.\n"); return 0; 


触发 kswapd 内核 线 程 


ucore 目 前 大 致 有 两 种 触发 kswapd 内 核 线程 的 策略 ， 即 积极 策略 和 消极 策略 。 积 极 策略 是 指 
ucore 周 期 性 地 (或 在 系统 不 忙 的 时 候 ) 唤醒 kswapd 内 核 线程 ， 让 它 主动 把 某 些 认为 “不 常 
用 "的 页 换 出 到 硬盘 上 ， 从 而 确保 系统 中 总 有 一 定数 量 的 空闲 页 存在 ， 这 样 当 需要 空闲 页 时 ， 
基本 上 能 够 及 时 满足 需求 ; 消极 换 出 策略 是 指 ，ucore 试 图 得 到 空闲 页 时 ， 发 现 当 前 没有 空闲 
的 物理 页 可 供 分 配 ， 这 时 才 唤 醒 kswapd 内 核 线程 ， 让 kswapd 开 始 查找 “不 常用 "页 面 ， 并 把 一 
个 或 多 个 这 样 的 页 换 出 到 硬盘 上 。 


对 于 积极 策略 ， 即 每 隔 1 秒 唤醒 一 次 内 核 线程 kswapd。 在 实现 上 是 基于 定时 器 的 触发 ， 即 在 
kswapd 的 主体 执行 函数 kswapd_main 的 末尾 执行 了 “do _ sleep(1000) ; ”， 这 表明 了 每 隔 1 秒 ， 
kswapd 就 要 执行 一 个 回收 空闲 线程 的 迭代 执行 过 程 。 对 于 消极 策略 ， 则 是 在 ucore 调 用 
alloc_pages 函 数 获取 空闲 页 时 ， 此 函数 如 果 发 现 无 法 从 页 分 配器 获得 空闲 页 ， 就 会 进一步 调 
用 try_free_pages 来 唤醒 线程 kswapd， 让 kswapd 换 出 某 些 页 。 在 执行 try_free_pages 有 函数 
时 ， 由 于 当前 用 户 进程 要 求 的 空闲 内 存 空 间 无 法 得 到 满足 ， 所 以 首先 让 当前 用 户 进 程 睡 眠 并 
加 入 到 等 待 队 列 中 ， 睡 眠 原因 设置 为 WT_KSWAPD， 即 等 待 Kkswapd 释 放出 更 多 的 空闲 内 存 ， 
然后 唤醒 kswapd : 


wait_init(wait, current); current->state = PROC_ SLEEPING; curren 
t->wait_state = WT_KSWAPD; wait_queue_add(&kswapd_done, wait); if (kswap 
d->wait_state == WT_TIMER) { wakeup_proc(kswapd); 


全 局 页 面 置换 算法 的 数据 结构 设计 


根据 lab2 的 设计 ， 我 们 可 以 知道 ucore 中 表示 内 存 中 物理 页 使 用 情况 的 变量 是 基于 数据 结构 
Page 的 全 局 变量 pages 数 组 ，pages 的 每 一 项 表示 了 计算 机 系统 中 一 个 物理 页 的 使 用 情况 。 如 
果 一 个 物理 页 在 硬盘 上 有 一 个 页 备份 ， 则 Ucore 需 要 记录 在 硬盘 中 页 备份 的 位 置 ， 同 时 还 需要 
记录 swap 分 区 上 的 页 备份 的 使 用 计数 。 


为 了 表示 物理 页 可 被 换 出 或 已 被 换 出 的 情况 ，Ucore 对 部 分 内 存 相 关 数 据 和 数据 结构 进行 了 扩 
展 。 如 果 一 个 页 被 换 出 了 ， 则 页 的 内 容 保 存在 硬盘 swap 分 区 上 有 一 个 连续 肩 区 中 ( 称 为 一 个 
swap page ) ， 而 对 应 此 页 的 页 表 项 PTE 的 Present 位 为 0， 表 示 已 经 没有 对 应 的 物理 内 存 页 映 
射 关 系 了 ， 但 如 果 高 24 不 为 0， 则 表示 这 个 页 虽然 在 物理 内 存 中 不 存在 了 ， 但 保存 在 swap 分 
区 中 以 PTE 高 24 位 为 偏 移 位 置 的 Swap page 中 。 这 里 我 们 把 Present 位 为 0 且 高 24 位 不 为 0 的 
PTE 称 为 一 个 swap entry。 一 个 有 效 的 swap entry 对 应 着 一 个 swap page 。 而 且 不 同 页 表 中 的 
swap entry 可 对 已 一 个 swap page。 


为 了 表示 存储 swap 分 区 上 的 页 的 使 用 计数 ， 在 swap.c 里 面 声明 了 全 局 的 mem_map 数据 结 
构 。 如 果 一 个 ucore 在 swap 分 区 上 分 配 了 一 个 

swap.c 里 还 声明 了 两 个 链表 ， 分 别 是 active list 和 inactive_ list， 分 别 表示 已 经 有 对 应 swap 
page 的 且 处 于 “活跃 "状态 /不 活跃 "状态 的 物理 页 所 形成 的 链表 。 所 有 已 经 有 对 应 swap page 的 
物理 页 page 必须 处 于 两 个 链表 中 的 一 个 。 


为 了 更 好 地 对 应 swap page/swap entry， 在 描述 物理 页 的 Page 数 据 结构 专门 设立 了 几 个 与 页 
面 置换 相关 的 成 员 变 量 : 


Struct Page { 
uint32_t flags; // array of flags that describe the status of the page frame 
swap_entry_t index; // stores a swapped-out page identifier 

list_entry_t swap_link; // swap hash link 





首先 flag 的 含义 做 了 扩展 : 


// the page is in the active or inactive page list (and swap hash table) 
#define PG_swap 4 

// the page is in the active page list 

#define PG _ active 5 


Page 结 构 中 的 index 值 表示 物理 页 在 硬盘 中 页 备份 的 位 置 ， 它 保存 了 被 换 出 的 页 的 页 表 项 
PTE ( 即 Swap entry) 高 24 位 的 内 容 ， 即 硬盘 中 对 应 页 备份 的 起 始 户 区 位 置 值 (以 局 区 为 单 
位 ) 。 如 果 page 数 据 结构 的 flags 设置 了 PG swap 为 1， 则 表示 该 page 中 的 index 是 有 效 
的 swap entry 的 索引 值 ， 从 而 该 物理 页 上 的 数据 可 以 被 写 出 到 index 所 表示 的 swap page 上 
说 :8 


Page 结 构 中 的 swap_link 保 存 了 以 entry 为 hash 索 引 的 链表 项 ， 这 样 根据 entry， 就 可 以 快速 的 
对 page 数据 结构 进行 查找 。 但 hash 数 组 在 哪里 呢 ? 对 于 在 硬盘 上 有 页 备份 的 物理 页 ( 简称 
swap_page) ， 需 要 统一 管理 起 来 ， 为 此 在 proj8 中 就 增加 了 全 局 变量 : 


static list_entry_t hash_list[HASH_LIST_SIZE]; 





hashlist 数 组 就 是 我 们 需要 的 hash 数 组 ， 根 据 index(swap entry) 索引 全 部 的 swap page 的 指 
针 ， 这 样 通过 hash 苑 数 


#define entry_hashfn(x) (hash32(x, HASH_SHIFT)) 


可 以 快速 地 根据 entry 找 到 对 应 的 page 数据 结构 。 


正如 页 替换 算法 描述 的 那样 ， 把 "常用 "的 可 被 换 出 页 和 "不 常用 "的 可 被 换 出 页 分 别 集 中 管理 起 
来 ， 形 成 active_list 和 inactive_list 两 个 链表 。 ucore 的 页 面 置换 莫 法 会 根据 相应 的 准则 把 它 
认为 “常用 ”的 物理 页 放 到 active_ list 链表 中 ， 而 把 它 认为 “不 常用 "的 物理 页 放 到 inactive_ list 链表 
中 。 一 个 标记 了 PG_swap 的 页 总 是 需要 在 这 两 个 链表 之 问 移 动 。 


前 面 介绍 过 mem_map 数组 ， 他 是 用 来 记录 swap_page 的 引用 次 数 的 。 因 为 swap 分 区 上 的 
swap page 实际 上 是 某 个 物理 页 的 数据 备份 。 所 以 ， 一 个 物理 页 page 的 page _ref 与 对 应 
swap page 的 mem_maploffset] (offset = swap_offset(entry)) 值 的 和 是 这 个 页 的 丨 实 引 用 计 
数 。page_ref 表示 PTE 对 该 物理 页 的 映射 的 个 数 ; mem_map 表示 PTE 对 该 swap 备份 页 的 


映射 个 数 。 当 page_ref 为 0 的 时 候 ， 表 示 物 理 页 可 以 被 回收 ; 当 mem_map[offset] 为 0 的 时 
候 ， 表 示 swap page 可 以 被 重新 存储 其 他 的 物理 页 内 容 (前 面 介 绍 过 ， 可 以 回收 ， 但 是 在 万 
不 得 已 的 情况 下 才 申 的 回收 ) 。 


【注意 】 


ucore 目前 使 用 的 PIO 的 方式 读 写 IDE 磁盘 ， 这 样 的 好 处 是 ， 磁 盘 读 入 、 写 出 操作 可 以 认为 
是 同步 的 ， 即 当前 CPU 需 要 等 待 磁盘 读 写 完毕 后 再 进行 进一步 的 工作 。 由 于 磁盘 操作 相对 
CPU 的 速度 而 言 是 很 慢 的 ， 这 使 得 会 浪费 大 量 的 CPU 时 间 在 等 ID 操作 上 “。 于 是 我 们 总 是 希望 
能 够 在 IO 性 能 上 有 更 大 的 提升 ， 比 如 引入 DMA 这 种 异步 的 IO 机 制 ， 为 了 避免 后 续 开 发 上 
的 各 种 不 便 和 冲突 ， 我 们 假设 所 有 的 磁盘 操作 都 是 异步 的 (也 包括 后 面 的 实验 ) ， 即 使 目前 
是 通过 PIO 完成 的 。 


假定 某 page 的 flags 中 的 PG_swap 标志 位 为 1， 并且 PG _active 标 志 位 也 为 1， 则 表示 该 
page 在 swap 的 active_ list 中 ， 和 否则 在 inactive_ list 中 。 active_ list 中 的 页 表示 活跃 的 物理 
页 ， 即 页 表 中 可 能 存在 多 个 PTE 指向 该 物理 页 (这 里 可 以 是 同一 个 页 表 中 的 多 个 entry， 在 
后 面 lab3 的 实验 里 面 有 了 进程 以 后 ， 也 可 以 是 多 个 进程 的 页 表 的 多 个 entry) ; 反 过 来 ， 
inactive_list 链表 所 链接 的 page 通常 是 指 没有 PTE 再 指向 的 页 。 


【注意 】 
需要 强调 两 点 设计 因素 : 


1. 一 个 page 是 在 active_list 还 是 在 inactive_list 的 条 件 不 是 绝对 的 ; 
2. 只 有 inactive list 上 的 页 才 会 被 尝试 换 出 。 


这 两 个 设计 因素 的 设计 起 因 如 下 : 


1. 我 们 知道 一 个 page 换 出 的 代价 是 很 大 的 (磁盘 操作 ) ， 并 且 我 们 假设 所 有 的 磁盘 操作 都 
是 异步 的 ， 那 么 换 出 一 个 active 的 页 就 变 得 非常 不 值得 。 因 为 在 还 有 多 个 PTE 指向 他 情 
况 下 进行 换 出 操作 ( 弄 步 IO 可 能 导致 进程 切换 ) 的 较 长 过 程 中 ， 这 个 页 可 以 随时 被 其 它 
进程 写 脏 。 而 硬件 提供 给 内 核 的 接口 ( 即 页 表 项 PTE 的 dirty 位 ) 使 得 内 核 只 能 知道 一 个 页 
是 否 是 脏 的 (不 能 明确 知道 一 个 页 的 哪个 部 分 是 脏 的 ) ， 当 这 种 情况 发 生 时 ， 就 导致 了 
一 次 无 效 的 写 出 。 

2. active list 和 inactive_list 的 维护 只 能 由 与 swap 有 关 的 集中 操作 来 完成 。 特 别 是 在 
lab3/proj11 引 入 kswapd 内 核 线程 之 后 ， 所 有 的 内 存 页 换 出 任务 都 交 给 kswapd， 这 样 减少 
了 复杂 的 同步 互 矿 实现 〈 在 lab5 中 会 重点 涉及 ) 。 

3 页面 换 入 换 出 有 关 的 操作 需要 做 的 就 是 尽 可 能 的 完成 如 下 三 件 事 情 : 


o 将 PG swap 为 0 的 页 转变 成 PG swap 为 1 的 页 。 即 尽 可 能 的 给 每 个 物理 页 分 配 一 
个 swap entry (当然 前 提 是 有 足够 大 的 swap 分 区 ) 。 

o 将 页 从 active_list 上 移动 到 inactive_list 上 。 如 果 一 个 页 还 在 active_list 上 ， 说 明 还 
有 PTE 指向 此 “活跃 "的 物理 页 。 所 以 需要 在 完成 内 存 页 换 出 时 断 开 对 这 些 物 理 页 的 
引用 ， 把 它 变 成 不 活跃 的 (inactive) 。 只 有 把 所 有 的 PTE 对 茶 page 的 引用 都 断 开 


( 即 page 的 page_ref 为 0) 后 ， 就 可 以 将 此 page 从 active list 移动 到 inactive list 
让 

o 将 inactive list 上 的 页 写 出 并 释放 掉 。inactive list 上 的 page 表 示 已 没有 PTE 指向 此 
page 了 ， 那 么 该 page 可 以 被 释放 ， 如 果 该 page 被 写 过 ， 那 还 需 把 此 page 换 出 到 
swap 分 区 上 “。 如 果 在 整个 换 出 过 程 〈 异 步 I1D) 中 没有 其 他 进程 再 写 这 个 物理 页 ( 即 
没有 PTE 在 引用 它 或 有 PTE 引 用 但 页 没有 写 脏 ) ， 就 认为 这 个 物理 页 是 可 以 安全 释 
放 的 了 。 那 么 将 它 从 inactive_ list 上 取 下 ， 并 调用 page_free 函 数 实现 page 的 回 
收 。 

4. 值得 注意 的 是 ， 内 存 页 换 出 操作 只 有 特定 时 候 才 被 调用 ， 即 通过 执行 try 人 
数 或 者 定时 器 机 制 (在 lab3/proj10.4 才 引入 ) 定期 唤醒 kswapd 内 核 线程 。 这 样 会 导致 内 
存 页 换 出 操作 对 两 个 链表 上 的 数据 都 不 够 敏感 。 比 如 处 于 active list 上 的 page， 可 能 在 
kswapd 工作 的 时 候 ， 已 经 没有 PTE 再 引用 它 了 ; 再 如 相应 的 进程 退出 了 ， 并 且 相 应 的 
地 址 空间 已 经 被 内 核 回收 ， 从 而 i 一 个 inactive 的 page ; 2 list 上 的 
page 也 可 能 在 换 出 的 时 候 ， 其 它 进程 通过 page fault， 又 将 PTE 指向 他 ， 进 而 变 成 一 个 
实际 上 active 的 页 。 所 以 说 ，active 和 inactive 条 件 并 不 绝对 。 


全 局 页 面 置 换算 法 的 执行 逻辑 


其 实在 lab2/proj8 中 并 没有 完全 实现 页 面 置 换算 法 ， 只 是 实现 了 其 中 的 部 分 关键 函数 ， 并 通过 
check_swap 来 验证 了 这 些 函 数 的 正确 性 。 直 到 lab3 的 proj11 才 形成 了 完整 的 页 面 置换 逻辑 ， 
而 这 个 页 面 置换 逻辑 基本 上 是 改进 的 时 钟 算法 的 一 个 实际 扩展 版 本 。 


页 状态 变化 关系 


Ucore 采用 的 页 面 置 换算 法 是 一 个 全 局 的 页 面 置 换算 法 ， 因 为 它 收集 了 Ucore 中 所 有 用 户 态 进 
程 (这 里 可 理解 为 pe 运行 的 每 个 用 户 态 程 序 ) 的 可 换 出 页 ， 并 把 这 些 可 换 出 页 中 的 一 部 
分 转换 为 空闲 页 次 它 考虑 了 页 的 访问 情况 (根据 PTE 中 PTE_A 位 的 值 ) 和 读 写 情况 ( 根 
ts 。 如 果 页 被 访问 过 ， 则 把 PTE_ A 位 清 零 继续 找 下 一 页 ; 如 果 页 没有 
被 访问 过 ， 这 此 页 就 成 为 了 active 状 态 的 可 换 出 页 ， 并 放 入 active_list 链 表 中 ， 这 时 需要 把 对 
应 的 PTE 转 换 成 为 一 个 swap entry( 高 24 位 保存 为 硬盘 缓存 页 的 起 始 扇 区 号 ，PTE_P 位 清 零 ) ; 
接着 refill inactive_scan 函 数 会 把 处 于 active 状 态 的 部 分 可 换 出 页 转换 成 inactive 状 态 ， 并 放 入 
inactive list 链表 中 ; 然后 page_launder 郊 数 扫描 inactive_list 中 的 处 于 inactive 状 态 的 可 换 出 

， 如 果 此 页 不 是 dirty 的 ， 则 J 它 直 接 转 换 成 空 闪 页 ， 如 果 此 页 是 dirty 的 ， 则 执行 换 出 操作 ， 
a 页 换 出 到 硬盘 上 保存 。 这 个 页 的 状态 变化 图 如 下 图 所 示 。 
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Ucore 的 物理 页 状态 变化 图 
确定 腾 出 的 空闲 页 数 和 断 开 的 PTE 映 射 数 


在 proj11 中 同时 实现 了 积极 换 出 策略 和 消极 换 出 策略 ， 这 都 是 通过 在 不 同 的 时 机 执行 
kwapd_main 甩 数 来 完成 的 。 当 ucore 调 用 alloc_pages 函 数 以 获取 空闲 页 ， 但 物理 页 内 存 分 配 
器 无 法 满足 请 求 时 ，alloc_pages 有 函数 将 调用 try_free_pages 来 通过 直接 唤醒 内 核 线程 kswapd 
的 方式 执行 kwapd_main 函 数 ， 完 成 对 页 的 换 出 操作 和 生成 空闲 页 的 操作 。 这 是 一 种 消极 换 出 
的 策略 。 另 外 ，Uucore 也 设立 了 通过 设置 timer 来 唤醒 线程 的 方式 每 秒 执行 一 次 kwapd_main 子 
数 ， 完 成 对 页 的 换 出 操作 和 生成 空闲 页 的 操作 。 这 是 一 种 积极 换 出 的 策略 。 


如 果 alloc_pages 执行 分 配 n 连续 物理 页 失败 ， 则 会 通过 调用 tree free_page 来 唤醒 kswapd 线 
程 。kswapd 需 要 尽 可 能 的 满足 分 配 n 个 连续 物理 页 的 需求 。 既 然 需求 是 n 个 连续 物理 页 ， 那 
么 kswapd 所 需要 释放 的 物理 页 就 应 该 大 于 n 个 ; 每 个 页 可 能 在 某 个 或 者 许多 个 页 表 的 不 同 
的 地 方 有 PTE 映射 (特别 是 copy on write 之 后 ， 这 种 情况 更 为 普遍 ) ， 那 么 kswapd 所 需要 
断 开 的 PTE 映射 就 远 远 不 止 n 个 。 


Linux 实现 了 能 够 根据 physical address 在 页 表 中 快速 定位 的 数据 结构 ， 但 是 实现 起 来 过 于 复 
杂 ， 这 里 ucore 采用 了 一 个 比较 笨 的 方法 ， 即 遍历 所 有 存在 的 页 表 结 构 ， 断 开 足 够 多 的 PTE 
上 映射。 这 里 足够 多 是 个 经 验 公 式 ， 采 用 nN\<\<5 。 当 然 这 也 可 能 失败 ， 那 么 kswapd 就 会 尝试 
一 定 次 数 。 当 他 实在 无 能 为 力 的 时 候 ， 也 就 放弃 了 。 而 alloc_pages 也 会 不 停 的 调用 
try_free_pages 进行 尝试 ， 当 尝试 不 停 的 遭遇 失败 的 时 候 ， 程 序 中 会 有 许多 句 warn 来 输出 这 
些 调试 信息 。 而 Linux 的 方案 是 选择 一 个 占用 内 存 最 多 的 进程 杀 掉 并 释放 出 资源 ， 来 尽 可 能 
的 满足 当前 程序 的 需求 (注意 ， 这 里 当前 程序 是 指 内 核 服务 或 者 调用 ) ， 直 到 程序 从 内 核 态 
正常 退出 ; Ucore 的 这 种 设计 显然 是 相对 简单 了 


面 置换 大 致 流程 


kswapd_main 是 ucore 整 个 页 面 置换 算法 的 总 ， 其 大 致 思路 是 根据 当前 的 空闲 页 情况 查 
找 出 足够 多 的 可 换 出 页 (Swap page， enn ee 志 位 为 1) ， 然 后 根据 这 些 可 换 
出 页 的 访问 情况 确定 哪些 是 “常用 "页 ( 即 page 的 PG _swap 标 志 位 和 PG active 标 志 位 为 1) ， 
哪些 是 “不 常用 "页 ， 最 后 把 “不 常用 ”的 页 转换 成 空间 页 。 思 路 简单 ， 但 具体 实现 相对 复杂 。 
kswapd 腾 出 更 多 空闲 页 的 核心 是 尽 可 能 的 断 开 页 表 中 的 PTE 映射 ， 其 整个 处 理 流 程 分 为 三 
步 : 


。 就 是 把 尽 可 能 多 的 page (有 对 应 合法 PTE 项 ， 即 对 应 PTE 项 的 PTE_P 标 志 位 为 1) 转变 
成 具有 PG active 的 page (此 时 的 page PG_swap 标 志 位 和 PG _active 标 志 位 都 为 1， 但 
对 应 的 PTE 项 的 PTE_P 标 志 位 为 0) ， 并 移动 到 active list 中 ; 

。 接着 把 active list 中 的 页 (这 些 page 的 PG_swap 标 志 位 和 PG active 标 志 位 为 1) 尽 可 能 
多 的 变 成 inactive list 中 页 (这 些 page 的 PG_swap 标 志 位 为 1 且 PG_active 标 志 位 为 0) ; 

。 最 后 把 inactive list 的 页 (这 些 page 的 PG_swap 标 志 oe _active 标 志 位 为 0) 转换 
成 空闲 页 ， 如 果 这 些 页 是 dirty 的 ， 则 在 转换 为 空闲 页 之 前 ， 先 要 把 页 的 内 容 换 出 〈 也 称 为 
launder, 洗 净 ) 到 swap 分 区 对 应 的 swap page 中 。 


扫描 页 表 是 一 项 艰巨 的 任务 ， 因 为 除了 内 核 空 间 ， 用 户 地 址 空间 有 将 近 3G 的 空间 ， 丨 正 的 程 
序 很 少 能 够 用 这 么 多 。 因 此 ， 充 分 利用 虚 存 管理 能 够 提升 扫描 页 表 的 速度 


页 面 置换 具体 流程 


现在 我 们 来 介绍 以 下 kswap_main 是 如 何 一 步 一 步 完 成 swap 的 操作 的 。 正 如 前 面 介绍 过 
的 ，Swap 需要 完成 3 件 事情 ， 下 面 对 应 的 是 这 三 个 操作 的 具体 细节 : 


断 开 足 够 多 的 页 表 项 PTE 


kswapd_main 函 数 通过 循环 调用 函数 swap_out mm 并 进一步 调用 Swap_out vma， 来 查找 
ucore 中 所 有 存在 的 虚 存 空间 ， 并 总 共 断 开 m 个 PTE 到 物理 页 的 上 映射。 为何 是 查找 Ucore 中 所 
有 存在 的 虚 存 空间 ,而 不 是 直接 扫描 每 个 进程 的 虚 存 空间 呢 ? 这 是 因为 虽然 每 个 用 户 进程 都 拥 
有 一 个 自己 的 虚 存 空间 ， 但 还 存在 虚 存 空间 在 多 个 进程 之 间 的 共享 的 情况 。 所 以 遍历 虚 存 空 

间 而 不 是 遍历 每 个 进程 可 避免 菜 个 虚 存 空间 被 很 多 进程 共享 进而 被 kswapd 过 度 压 榨 所 带 来 
的 不 公平 情况 。 可 以 想象 ， 被 过 度 压 榨 的 上 庶 存 空间 ， 同 时 又 由 于 被 很 多 进程 共享 从 而 有 很 高 
的 概 滨 被 使 用 到 ， 最 终 必 然 会 导致 频繁 的 内 存 访问 错误 异常 #PF， 给 系统 不 必要 的 负担 。 


另外 虽然 kswapd_main 的 第 一 个 任务 是 断 开 m 个 PTE 映射 ， 但 是 实际 上 它 对 每 个 虚 存 空间 
都 一 次 至 多 提出 断 开 32 个 映射 的 需求 ， 并 循环 遍历 所 有 的 虚 存 空间 直到 m 得 到 满足 。 这 样 
做 的 目的 也 是 为 了 保证 公平 ， 使 得 每 个 虚 存 空间 被 交换 出 去 的 页 的 几率 是 近似 相等 的 。Linux 
实际 上 应 该 有 更 好 的 实现 ， 它 根据 庶 存 空间 所 实际 使 用 的 物理 页 的 个 数 来 决定 断 开 的 映射 的 


个 数 。) 。 这 些 断 开 的 PTE 映射 所 指向 的 物理 页 如 果 没 有 PG_active 标记 ， 则 需要 给 它 分 配 
一 个 新 的 swap entry， 并 做 好 标记 ， 将 page 插入 到 active list 中 去 (同时 也 插入 到 swap 的 
哈 希 表 中 ) ， 然 后 设置 好 相应 的 page_ref 和 mem_map[offset] 的 值 。 


当然 ， 如 果 找 不 到 空闲 的 swap entry 可 以 分 配 (比如 swap 分 区 已 经 用 光 了 ) ， 我 们 只 能 跳 
过 这 样 的 PTE 映射 ， 从 下 一 个 地 址 继续 寻找 出 路 ; 对 于 原来 就 已 经 标记 了 PG_swap 的 物理 
页 ， 则 只 需要 完成 后 面 的 工作 ， 即 调整 引用 计数 就 足够 了 。 


断 开 的 PTE 被 swap_entry 取代 ， 并 取消 PTE_P 标记 ，， 这 样 当 出 现 #PF 的 时 候 ， 我 们 能 够 
直接 根据 PTE 上 的 值得 到 该 页 的 数据 实际 是 在 swap 分 区 上 的 哪个 位 置 上 。 


下 PTE 映射 ， 余 下 的 工作 后 面 会 一 步 步 完 成 。 需 要 注意 现在 还 不 
必要 考虑 一 个 page 究 竞 是 放 在 active_list Ue inactive_list 中， 也 还 没 涉 及 页 换 出 操 
作 。 当 kswapd 断 开 足 够 数量 的 PTE 映射 以 后 ， 第 一 阶段 的 工作 也 就 完成 了 。 


当 kswapd 发 现 自己 竭尽 所 能 的 遍历 都 无 法 满足 断 开 m 个 链接 的 需求 时 ， 该 怎么 办 ? 我 们 需 
要 明确 的 是 swap 操作 的 主要 目的 是 释放 物理 页 ， 而 断 开 PTE 映射 是 一 个 必要 的 步 又， 作用 
是 尽 可 能 的 扩大 inactive list 中 page 的 个 数 ， 为 物理 页 的 换 出 提供 更 大 的 基数 (操作 空 

间 ) ， 但 这 并 不 是 换 页 主要 过 程 。 所 以 为 防止 在 这 一 步 陷 入 死 循环 ，kswapd_main 最 多 会 
对 全 部 虚 存 空间 的 链表 尝试 rounds=16 次 遍 


【注意 】 庶 存 管理 数据 结构 mm_struct 新 增加 了 一 个 swap_address ， 表 示 上 一 次 页 换 出 操作 
人 的 地 址 。 维 护 这 个 数据 是 避免 每 次 swap 操作 都 从 虚 存 空间 的 起 始 地 址 开始 ， 从 而 导致 
过 多 数量 的 重复 且 无 效 的 遍历 。 


转换 inactive page 


refill_ inactive_list 从 函数 名 上 可 以 看 出 ， 实 际 上 就 是 遍历 active_list， 把 实际 上 不 活跃 的 
(inactive) page 从 active list 上 取 下 ， 放 到 inactive_list 上， 方便 下 一 轮 page_launder 的 操 
作 。 


页 换 出 和 释放 页 


通过 page _launder 函数 ， 完 成 遍历 inactive_list 并 实现 页 的 释放 与 换 出 。page launder 的 实 
现 ， 涉 及 Ucore 内 核 代码 设计 的 一 个 重要 假设 前 提 ，Ucore 的 内 核 代码 是 不 可 抢占 的 249 
节 请 参考 4.5.4 小 节 ) 。 这 部 分 和 上 述 的 refill_ inactive_list 函数 操作 的 先后 顺序 并 不 那么 

格 。 通 俗 的 解释 就 是 page_launder 实现 的 是 把 inactive_list 中 的 page 洗 净 ( 即 完 成 page 
的 释放 和 换 出 ) ， 当 然 也 顺便 实现 了 把 实际 上 活跃 的 (active) 的 page 从 inactive list 上 取 

下 ， 放 回 active_ list 的 过 程 。 


page_launder 其 实 是 比较 复杂 的 过 程 ， 需 要 仔细 的 分 析 一 下 。page_launder 先 检查 一 个 
page 的 page_ref 是 否 != 0。 如 果 是 ， 则 表示 该 page 实际 上 是 active 的 ， 则 把 它 移动 到 
active_list 上 去 ; 如 果 不 是 ， 则 需要 对 该 页 进行 释放 和 换 出 操作 。 具 体 过 程 如 下 ( 【注意 】 下 


面 讨论 的 是 以 page_ref == 0 作为 前 提 ) 


e 如 果 一 个 页 的 mem_map 项 为 0， 说 明 这 个 时 候 已 经 没有 PTE 映射 指向 它 了 ， 无 论 是 物 
理 页 还 是 swap 备份 页 。 那 么 这 个 页 也 就 没有 必要 洗 净 了 。 可 以 直接 释放 物理 页 以 及 相应 
的 表示 为 swap entry 的 PTE 了 。 (同时 还 需 处 理 swap page 有 关 的 链表 ， 以 下 不 再 资 
述 ) 

e 如 果 一 个 页 的 mem_map 项 不 为 0， 但 是 没有 PG dirty 标记 : page 数据 结构 里 面 有 
PG_dirty 标记 ，swap 部 分 的 代码 根据 这 个 标记 来 判断 一 个 页 是 否 需要 被 洗 净 ( 写 到 
swap 分 区 上 ) 。 这 个 PG dirty 标记 在 什么 情况 下 设置 ， 我 们 稍 后 会 讨论 。 这 种 情况 可 
以 等 价 为 物理 页 上 的 数据 和 swap 分 区 上 的 数据 是 一 致 的 ， 所 以 不 需要 洗 净 该 页 ， 因 为 该 
物理 页 本 身 就 已 经 足够 干净 了 。 所 以 可 以 安全 的 和 (1) 中 的 操作 一 样 对 该 物理 页 进行 释 
放 。 

e 如 果 一 个 页 的 确 有 PG dirty 标记 : 表示 该 页 需要 被 洗 净 ， 这 需要 调用 swapfs_write 蔬 
数 ， 完 成 将 物理 页 写 到 磁盘 上 的 操作 。 前 面 已 经 强调 过 ， 我 们 假设 所 有 磁盘 操作 是 异步 
IO。 先 明确 一 下 ， 当 前 的 状态 ，page_ref=0 &&mem_mapl!=0 && PG dirty， 那 么 在 执 
行 写 到 磁盘 的 过 程 中 就 可 能 发 生 下 面 许多 种 可 能 的 场景 : 


a. swapfs_write 操作 失败 了 。 磁 盘 操作 不 像 内 存 操 作 ， 它 应 该 允许 发 生 更 多 的 错误 。 


b. 其 它 进程 又 访问 到 相应 的 数据 页 ， 前 面 提 到 过 ， 因 为 PTE 的 PTE_P 标 志 位 为 0 了 ， 所 
以 会 产生 #PF， 内 核 会 根据 PTE 的 内 容 在 swap hash 里 面 查 找到 相应 的 物理 页 ， 并 将 它 
重新 插入 到 相应 的 页 表 中 ， 并 更 新 该 page 的 page ref 和 mem_map 的 值 。 整 个 过 程 发 
生 时 ，swapfs_write 还 没有 结束 。 那 么 当 完 成 洗 净 一 个 页 的 操作 时 ( 写 到 swap 分 区 ) ， 
swap 部 分 的 代码 应 该 有 能 力 检测 出 这 种 变化 。 也 就 是 在 swapfs_write 之 后 ， 需 要 再 判 
断 page_ref 是 否 依然 满足 inactive 的 。 


Cc. 和 bb 类 似 ， 不 过 不 同 的 是 ， 这 次 对 物理 页 进行 的 是 一 个 写 操作 。 操 作 完 成 之 后 ， 进 程 又 
将 该 PTE 指向 的 页 释放 掉 了 。 那 么 当 swapfs_write 返回 的 时 候 ， 它 面 对 的 条 件 ， 可 能 就 
变 成 了 page_ref=0 &&mem_map=0 &&PG dirty。 它 应 该 能 够 处 理 这 个 变化 。 


d. 和 c 类 似 ， 不 同 的 是 ， 该 page 有 两 个 不 同 的 PTE 映射 。 那 么 在 swapfs_write 操作 之 
前 ， 状 态 可 能 是 page_ref =0&&mem_map=2&IPG dirty， 那 么 当 c 中 的 情况 发 生 以 后 ， 
该 物理 页 的 状态 就 可 能 变 成 了 page _ref=0&mem_map=1&PG dirty 了 。swap 应 该 能 够 
处 理 这 种 变化 。 综 上 所 述 ，page_launder 部 分 的 代码 变 得 相对 复杂 很 多 。 大 家 可 以 参照 
程序 了 解 ucore 是 怎么 解决 这 种 冲突 的 。 


其 他 注意 事项 


因为 swapfs_write 是 异步 操作 ， 并 且 是 对 该 page 的 操作 ，ucore 为 了 保证 在 操作 的 过 程 中 ， 
该 页 不 被 释放 (比如 一 个 进程 通过 #PF， 增 加 page_ref 到 1， 然 后 又 通过 释放 该 page 减 少 
page_ref 到 0， 进 而 触发 内 核 执 行 page_free 的 操作 ) ， 分 别 在 swapfs_write 前 后 获得 和 释放 
该 page 的 引用 (page _ref inc/page_ref dec) 。 但 事实 证 明 ， 这 种 担心 是 多 余 的 。 理 由 很 
简单 ， 当 page_launder 操作 一 个 页 的 时 候 ， 该 页 是 被 标记 PG_ swap 的， 这 个 标记 一 方面 表 


示 page 结构 中 的 index 有 意义 ， 另 一 方面 也 说 明 这 样 的 page 的 释放 ， 只 能 够 由 swap 部 分 
的 代码 来 完成 (参见 pmm.c 以 及 后 面 shmem.c 的 处 理 ) 。 所 以 ，swap 在 操作 该 page 的 时 
候 ， 不 可 能 有 程序 能 够 调用 free_page 释 放 该 page 。 


而 相反 的 ，mem_map 是 一 个 需要 保护 的 数据 。 此 外 ， 可 以 翻阅 一 下 涉及 到 page _ref 修改 的 
pmm 部 分 的 代码 ， 不 难 发 现 ， 当 一 个 page 从 PTE 断 开 的 时 候 ， 也 就 是 page_ref 下 降 的 时 
候 ，Ucore 会 根据 PTE 上 的 硬件 设置 的 PTE_D 来 设置 PG_dirty。 其 实 这 就 足够 了 。 因 为 
PG_dirty 并 不 需要 时 时 刻 刻 都 十 分 的 准确 ， 只 要 在 swap 尝试 判断 该 page 是 否 需 要 洗 净 的 时 
候 ，PG _dirty 是 正确 的 ， 就 足够 了 。 所 以 只 需要 保证 每 次 page_ref 下 降 的 时 候 ，PG dirty 是 
正确 的 即 可 。 除 此 之 外 ， 在 对 每 个 页 分 配 Swap 的 时 候 ， 需 要 保证 标记 PG dirty， 因 为 
毕 竞 是 刚刚 分 配 的 ， 物 理 页 的 数据 还 从 来 没有 写 。 总结 一 下 ， 页 换 入 换 出 的 实现 很 复 
杂 ， 但 是 相对 独立 。 并 且 正 是 由 于 ucore > 。 
只 要 是 不 涉及 IO 操作 ， 大 部 分 过 程 都 可 以 认为 处 于 不 可 抢占 的 内 核 执行 过 程 。 


创建 并 执行 用 户 线 程 


实验 目标 


到 proj12 为 止 ，ucore 还 一 直 没 有 用 户 线 程 。 而 用 户 线 程 与 用 户 进程 的 区 别 在 于 操作 系统 用 户 
进程 管理 除了 涉及 与 执行 过 程 相关 的 调度 、 进 程 上 下 文 切 换 、 执 行 状态 变化 外 ， 还 需 管理 内 
存 、 文 件 等 资源 ， 而 用 户 线程 只 管理 与 执行 过 程 相关 的 调度 、 上 下 文 切换 、 执 行 状态 变化 。 
这 样 使 得 在 执行 线程 创建 、 删 除 和 线程 上 下 文 切 换 时 的 开销 比 对 进程 做 类 似 的 事情 要 少 很 大 
的 开销 。 从 而 在 操作 系统 的 用 户 线程 管理 下 ， 可 以 让 应 用 程序 开发 员 开 发 多 线程 应 用 软件 的 
执行 效率 更 高 。 


0 需 对 现 有 的 进程 管理 进行 有 限 扩展 ， 在 了 解 线程 基本 原理 的 情 
， 设计 并 实现 Ucore 对 用 户 线 程 的 基本 支持 。 


概述 
实现 描述 


proj12 是 lab3 的 最 后 一 个 project。 它 在 proj10.1 (中 间 还 有 proj10.2/10.3/10.4/11) 的 基础 上 实 
RD Md OW tt 
的 轻 量 级 进程 看 待 ， 扩 展 设计 了 进程 控制 块 中 支持 用 户 线程 的 成 员 变 量 和 与 进程 管理 相关 的 
0 使 得 在 现 有 进程 管理 的 基础 上 ， 做 相对 较 小 的 改动 ， 就 支持 线程 模型 了 。 
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相对 于 proj11， 主 要 增加 和 扩展 的 文件 如 下 : 


。 kern/proc.[ch] : 扩展 进程 控制 块 ， 增 加 线程 组 成 员 变量 ， 并 扩展 和 增加 与 线程 管理 相关 
的 函数 ; 

e kern/syscall.c : 增加 用 于 线程 创建 的 Sys_clone 系 统 调用 ; 

。 user/libs/*.[chS] : 实现 用 户 态 创建 线程 的 库 调 用 函数 、 访 问 系统 调用 函数 ; 

e User/thread*.c : 线程 支持 用 户 测 试用 例 。 


编译 运行 
首先 确保 proj12 的 kern/proc.c 中 的 user_main 函 数 中 的 代码 为 : 


static intuser_main(void *arg) {#ifdef TEST KERNEL_EXECVE2(TEST, TESTSTART, TESTSIZ 
E);#else KERNEL_EXECVE( threadtest );#endif panic("user_main execve failed.\n");} 


编译 并 运行 proj12 的 命令 如 下 : 


make 
make qemu 


则 可 以 得 到 如 下 显示 界面 : 


thuos :~/oscourse/ucore/i386/lab3_process/proj12$ make qemu 

(THU.CST) os is loading ... 

++ Setup timer interrupts 

kernel_ execve: pid = 3, name = "threadtest". 

thread ok. 

child ok. 

threadtest pass. 

all user-mode processes have quit. 

init check memory pass. 

kernel panic at kern/process/proc.c:454: 
initproc exit. 


Welcome to the kernel] debug monitor!! 
Type 'help' for a list of commands. 
K> 


这 其 实 是 ucore 首 先 创 建 了 一 个 用 户 进程 usermain， 然 后 此 用 户 进程 通过 调用 Sys_execv 执 行 


的 是 users/threadtest.c 中 的 代码 : 


#include <ulib.h> 
#include <stdio.h> 
#include <thread.h> 
inttest(void *arg) { 
cprintf("child ok.\n"); 
return Oxbee; 
} 
intmain(void) { 
thread t tid; 
assert(thread(test, NULL, &tid) == 0); 
cprintf("thread ok.\n"); 
int exit_code; 
assert(thread wait(&tid, &exit code) == 0 && exit code == Oxbee); 
cprintf("threadtest pass.\n"); 
return 0; 


Usermain 用 户 进程 调 用 了 thread 用 户 库 函数 来 创建 了 一 个 用 户 线程 test， 这 个 用 户 线程 同 享 了 
Usermain 用 户 进程 的 地 址 空间 ， 然 后 usermain 用 户 进程 就 调用 thread_wait 函 数 等 待 用 户 线程 
结束 。 用 户 线 程 test 在 结束 执行 时 ， 会 设置 退出 码 为 0xbee。 用 户 进程 usermain 会 检查 此 退出 
码 ， 看 用 户 线 程 是 否 结束 。 上述 执 行 过 程 其 实 包含 了 对 用 户 线程 整个 生命 周期 的 管理 。 下 面 


我 们 将 从 原理 和 实现 两 个 方面 对 此 进行 进一步 阐述 。 


【原理 】 线 程 的 属性 与 特征 分 析 


线程 概念 的 提出 是 计算 机 系统 的 技术 发 展 和 操作 系统 对 进程 管理 优化 过 程 的 自然 产物 。 随 着 
计算 机 处 理 能 力 的 提高 ， 内 存 容量 的 加 大 ， 在 一 个 计算 机 系统 中 会 存在 大 量 的 进程 ， 为 了 提 
高 整个 系统 的 执行 效率 ， 需 要 进程 间 能 够 进行 简洁 高 效 的 数据 共享 和 进程 切换 ， 进 程 创 建 和 
进程 退出 。 这 样 就 会 产生 一 个 自然 的 想法 : 能 否 改进 进程 模型 ， 提 供 一 个 简单 的 数据 共享 机 
制 ， 能 否 加 快 进程 管理 (特别 是 进程 切换 ) 的 速度 ? 再 仔细 看 看 进程 管理 的 核心 数据 结构 进 
程控 制 块 和 处 理 的 流程 ， 就 可 以 发 现 ， 在 某 种 情况 下 ， 进 程 的 地 址 空间 隔离 不 一 定 是 一 个 必 
须 的 需求 。 假 定 进程 间 是 可 以 相互 “信任 "的 ( 即 进 程 间 是 可 信 的 ) ， 那 么 我 们 就 不 必需 要 地 址 
空间 隔离 ， 而 是 让 这 些 相互 信任 的 进程 共用 (共享 ) 一 个 地 址 空间 。 这 样 一 下 子 就 解决 上 述 
两 个 问题 : 在 一 个 地 址 空 Rd 内 存单 元 操作 ) 可 以 让 
其 他 进程 马上 看 见 ( 即 读 内 存单 元 操作 ) ， 这 是 共享 地 址 空间 带 来 的 天 然 好 处 ; 另外 由 于 进 
程 共享 了 地 址 空间 ， 所 以 在 创建 进 se ， 只 要 不 是 相互 信任 的 进程 组 的 第 
个 或 最 后 一 个 ， 就 没 必 要 再 创建 一 个 地 址 空间 或 回收 地 址 空间 ， 节 省 了 创建 进程 和 退出 进程 
的 执行 开销 ; 而 且 对 于 频繁 发 生 的 进程 切换 操作 而 言 ， 由 于 不 需要 切换 页 表 ， 所 以 TLB 中 缓存 
的 虚拟 地 址 一 物理 地 址 映射 关系 《页 表 项 的 缓存 ) 不 必 清 除 或 失效 ， 减 少 了 进程 切换 的 开 
销 。 


为 了 区 别 已 有 的 进程 概念 ， 我 们 把 这 些 共享 资源 的 进程 称 为 线程 。 从 而 把 进程 的 概念 进行 了 
细 化 。 原 有 的 进程 概念 缩小 为 资源 管理 的 最 小 单位 ， 而 线程 是 指令 执行 控制 流 的 最 小 单位 。 
且 线 程 属于 进程 ， 是 进程 的 一 部 分 。 一 个 进程 至 少 需要 一 个 线程 作为 它 的 指令 执行 单元 ， 进 
程 管理 主要 是 资源 (如 内 存 空间 等 ) 分 配 、 el 而 线程 管理 主要 是 指令 We 

过 程 和 切换 过 程 的 管理 。 一 个 进程 可 以 拥有 多 个 线程 ， 而 这 些 线程 共享 其 所 属 进程 所 拥有 的 
资源 。 这 样 ， 采 用 多 线程 模型 来 设计 应 用 程序 ， 可 以 使 得 es 9 


从 执行 线程 调度 时 CPU 所 处 特权 级 角度 看 ， 有 内 核 级 线程 模型 和 用 户 级 线程 模型 两 种 线程 模 
型 。 内 核 级 线程 模型 由 操作 系统 在 核心 态 进行 调度 ， 每 个 线程 有 对 应 的 进程 控制 块 结构 。 用 
户 级 线程 模型 有 用 户 态 的 线程 管理 库 在 用 户 态 进 行 调度 ， 操 作 系 统 不 能 "感知 "到 这 样 的 线程 存 
在 ， 所 以 也 就 没有 对 应 进程 控制 块 来 描述 它 。 相 对 而 言 ， 由 于 用 户 级 线程 模型 在 执行 线程 调 
度 切 换 时 不 需 从 用 户 态 转 入 核心 态 ， 开 销 相 对 较 小 ， 而 内 核 级 线程 模型 虽然 开销 相对 较 大 ， 
但 由 于 操作 系统 直接 负责 管理 ， 所 以 在 执行 的 灵活 性 上 由 于 用 户 级 线程 模型 。 比 如 用 户 级 线 
程 模型 中 某 线程 执行 系统 调用 而 可 能 被 操作 系统 阻塞 ， 这 会 引起 同属 于 一 个 进程 的 其 他 线程 
都 被 阻塞 。 但 内 核 级 线程 模型 不 会 有 这 种 情况 后 发 生 。 这 两 种 线程 模型 还 可 以 结合 在 一 起 形 
成 一 种 “混合 ?线程 模型 。"“ 混 合 ? 线 程 模型 通常 都 能 带 来 更 高 的 效率 ， 但 也 带 来 更 大 的 实现 难度 
和 实现 代价 。ucore 出 于 “简单 ”的 设计 思路 ， 参 考 Linux 实 现 了 内 核 级 线程 模型 。 
dn ye 度 看 ， 有 内 核 线程 和 用 户 线 程 之 分 ， 内 核 线 程 共享 操作 系统 


内 核 运行 过 程 中 的 所 有 资源 ， 最 主要 的 就 是 内 核 庶 拟 地 址 空间 ， 但 没有 内 核 线程 有 各 自 独 立 
Re 且 没有 用 户 态 的 地 址 空间 。 用 户 线程 共享 属于 同一 用 户 进程 的 所 有 资源 ， 最 主要 


的 就 是 用 户 虚 拟 地 址 空间 ， 所 以 同 享 同一 用 户 进 程 的 进程 控制 块 所 描述 的 一 个 页 表 和 一 个 内 
存 管理 数据 结构 。 接 下 来 我 们 看 看 ucore 中 如 何 具 体 实 现 用 户 线程 这 个 概念 。 


【实现 】 创 建 并 执行 用 户 线 程 
数据 结构 扩展 : 进程 控制 块 和 用 户 线 程 数 据 结 构 


由 于 ucore 采 用 的 是 内 核 级 线程 模型 ， 所 ， 户 人 但 由 于 用 户 线 程 
不 同 于 用 户 进 程 ， 所 以 要 对 已 有 进程 控制 块 进行 简单 扩展 ， 这 个 扩展 其 实 就 是 要 表达 共享 了 
同一 进程 的 线程 组 的 关系 : 


struct proc_struct { 

// the threads list including this proc which share resource 
list_entry_t thread_group; 

}; 


这 样 便于 查找 属于 同一 用 户 进 程 的 所 有 用 户 线程 。 另 外 ， 属 于 同一 用 户 进程 的 用 户 线程 能 够 
共享 的 进程 控制 块 的 主要 成 员 变量 包括 : 


Struct mm_struct *mm; // Process's memory management field 
uintptr_t cr3; // CR3 register: the base addr of Page Directroy Table(PDT) 


这 样 确保 了 属于 同一 用 户 进程 的 用 户 线程 能 共享 同一 用 户 地 址 空间 。 在 对 于 其 他 一 些 与 线程 
执行 相关 的 成 员 变 量 ， 比 如 state、kstack、 苹 等 ， 都 有 各 自 独 立 的 数据 存在 。 由 于 属于 同一 用 
户 进程 的 不 同 用 户 线程 除了 在 内 核 地 址 空间 需要 有 不 同 的 内 核 栈 空间 外 ， 在 用 户 地 址 空间 也 
需要 有 不 同 的 用 户 栈 空间 。 为 此 ， 我 们 还 需 有 一 个 数据 结构 来 描述 。Ucore 把 这 个 数据 机 构 放 
在 用 户 态 函 数 库 中 (userllibs/thread.h) 


typedef struct { 
int pid; 
void *stack; 
} thread t; 


thread_t 是 对 进程 控制 块 的 补充 ，pid 是 此 线程 的 id 标 识 ( 与 进程 控制 块 的 pid 一 致 ) ，stack 是 
用 户 栈 的 起 始 地 址 。 通 过 这 两 方面 的 扩展 ， 在 数据 结构 层面 就 已 经 做 好 对 用 户 线 程 的 支持 
于 


创建 用 户 线 程 


创建 用 户 线 程 的 执行 流程 重用 了 创建 用 户 进程 的 执行 过 程 ， 但 有 一 些微 小 的 差别 ， 下 面 我 们 
逐一 进行 分 析 。 用 户 态 函数 库 提 供 了 thread 函 数 来 给 应 用 程序 提供 创建 线程 的 接口 。 


int 
thread(int (*fn)(void *), void *arg, thread t *tidp) { 
if (fn == NULL || tidp == NULL) { 
return -E_INVAL; 
} 


int ret; 

uintptr_t stack = 0; 

if ((ret = mmap(&stack, THREAD_ STACKSIZE, MMAP_WRITE | MMAP_STACK)) != 0) { 
return ret; 


} 


assert(stack != 0); 
if ((ret = clone(CLONE VM | CLONE_ THREAD, stack + THREAD_ STACKSIZE, fn, arg)) < 0) 


munmap(stack, THREAD_STACKSIZE); 
return ret; 


} 


tidp->pid = ret; 
tidp->stack = (void *)stack; 
return 0; 


从 中 可 以 看 出 ，thread 函 数 首先 需要 给 用 户 线 程 分 配 用 户 栈 ， 这 里 采用 的 是 mmap 函 数 (最 终 
访问 sys_mmap 系 统 调用 ) 来 完成 栈 空间 分 配 。 其 实 ucore 并 没有 监 的 给 用 户 线程 分 配 栈 空 

间 ， 这 里 采用 了 Demanding Paging ( 按 需 分 页 ) 技术 来 减少 分 配 栈 空间 的 时 间 和 空间 开销 。 
另外 ， 还 调用 了 clone 远 数 来 完成 用 户 线程 的 创建 ，clone 进 一 步调 用 了 sys_clone 系 统 调用 接 
口 来 要 求 Ucore 完 成 创建 线程 的 服务 。sys_clone 与 创建 进程 的 sys_fork 系 统 调 用 接口 有 何 区 
别 ? 它们 的 区 别 是 创建 标志 位 clone_flags : 


。 调用 clone 创 建 线程 的 创建 标志 位 : CLONE_VM | CLONE_THREAD 
e。 调用 fork 创 建 进程 的 创建 标志 位 :0 


【注意 】 另 外 clone 函 数 要 完成 的 具体 工作 是 放 在 /uslibs/clone.S 中 的 函数 clone 来 实现 的 。 
为 何 clone 函 数 的 内 容 不 直接 放 到 clone 函 数 中 用 C 语 言 来 实现 呢 ? 这 里 其 实 只 能 用 汇编 来 实 
现 。 因 为 对 于 用 户 进程 而 言 ， 采 用 fork 函 数 创建 用 户 进程 时 ， 对 子 进程 用 户 空间 的 设置 采用 的 
是 整体 复制 或 基于 COW 机 制 的 整体 共享 方式 ， 这 样 就 可 保证 不 同 进程 的 堆 和 栈 最 终 位 于 不 同 
的 用 户 地 址 空间 。 而 对 于 用 户 线程 而 言 ， 它 需要 共享 父 进程 的 地 址 空间 ， 但 又 需要 有 自己 的 
栈 空间 (此 空间 虽然 父 进程 也 可 以 看 到 "， 但 不 能 用 ， 只 能 上 线程 自己 专用 ) ， 所 以 在 访问 
sys_clone 系 统 调用 前 ， 用 户 线程 用 的 是 父 进程 的 用 户 堆栈 ， 在 此 系统 调用 返回 后 ， 用 户 线程 
已 经 被 创建 并 开始 在 用 户 态 执行 ， 此 时 sp 已 经 指向 了 新 进程 建立 的 新 用 户 栈 ( 见 
usr/libs/thread.c) ， 而 不 是 父 进 程 的 用 户 栈 ， 这 也 就 意味 着 在 从 系统 调用 返回 后 ， 子 进程 已 
经 无 法 读 位 于 父 进 程 栈 上 的 局 部 变量 等 数据 。 这 样 新 线程 需要 使 用 寄存 器 (其 实 全 局 变量 也 
行 ， 只 要 避免 使 用 位 于 进程 栈 上 的 局 部 变量 即 可 ) 来 进行 数据 处 理 ， 完 成 用 户 线程 的 继续 执 
行 。 为 了 能 够 精确 控制 这 个 执行 过 程 ， 不 得 不 采用 汇编 来 写 ， 如 果 用 C 语 言 来 写 ， 你 无 法 确保 
编译 器 不 创建 或 使 用 局 部 变量 来 完成 处 理 过 程 。 


在 内 核 中 ， 创 建 线 程 的 服务 和 创建 进程 的 服务 都 是 通过 do_fork 来 实现 的 ， 而 这 个 创建 标志 位 
clone_flags 就 决定 了 如 何 创建 线程 ， 查 看 do_fork 函 数 : 


int 
do_fork(uint32_t clone_flags, uintptr_t stack, struct trapframe *tf) { 
if (copy_mm(clone_flags, proc) != 0) { 
goto bad_ fork_cleanup_kstack; 


} 
{ 
If (clone_flags & CLONE_ THREAD) { 
list_add_before(&(current->thread_ group), &(proc->thread_group)); 
} 
} 


如 果 进 一 步 分 析 copy_mm 函 数 ， 如 果 clone_flags 有 CLONE_VM 位 ， 则 执行 : 


mm_count_inc(mm); 
proc->mm = mm; 
proc->cr3 = PADDR(mm->pgdir); 


后 两 条 语句 说 明了 被 创建 的 新 线程 重用 了 当前 进程 控制 块 的 mm 成 员 变量 ， 并 重用 同样 的 页 
表 。 而 如 果 clone flags 有 CLONE _ THREAD 位 ， 则 会 把 被 创建 的 新 线程 的 进程 控制 块 成 员 变 
量 thread _ group 链接 到 当前 进程 控制 块 的 牵头 的 链表 thread _ group 中 在 ， 这 样 所 有 当前 进程 创 
建 的 线程 都 会 在 当前 进程 牵头 的 链表 thread _ group 中 找到 。 而 在 其 他 操作 中 ， 创 建 线程 与 创 
建 进 程 的 处 理 逻 辑 是 一 样 的 。 


退出 用 户 线程 


在 退出 线程 方面 ， 与 进程 退出 相 比 ， 区 别 不 大 。 只 是 在 执行 do_exit 的 时 候 ， 调 用 

de thread(current) 函 数 ， 进 一 步 把 自身 从 线程 组 链表 中 删除 ， 其 他 方面 都 与 进程 执行 do_exit 
一 致 ; en _wait 来 通过 sys_wait 系 统 调用 接口 进一步 调用 内 核 函 
数 do_exit 完 成 对 退出 的 子 进程 资源 的 最 后 回收 。 与 进程 的 wait 鸣 数 相 比 ， 主 要 的 区 别 是 : 用 
户 库 函 数 thread_wait 通 过 munmap 有 函数 完成 了 对 线程 用 户 栈 空间 的 回收 。 与 proj12 以 前 实现 的 
do_exit 汐 数 相 比 ， 主 要 的 区 别 是 : 在 查找 是 否 有 子 线程 的 执行 状态 处 于 PROC_ZOMBIE 时 ， 
除了 搜索 此 进程 的 每 个 子 进程 外 ， 还 搜索 此 进程 所 属 线程 组 的 每 个 线程 的 所 有 子 进 程 。 其 他 
方面 的 处 理 都 是 大 致 相同 的 。 


实现 : 创建 并 执行 用 户 线程 
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进程 运行 状态 转变 


分 析 完 从 进程 /线程 从 创建 到 退出 的 整个 过 程 ， 我 们 需要 在 从 全 局 的 角度 来 看 看 进程 /线程 在 做 
整个 运行 过 程 中 的 运行 状态 转变 过 程 。 在 执行 状态 转变 过 程 中 ，ucore 在 调度 过 程 总 ， 并 没有 
区 分 线程 和 进程 ， 所 以 进程 和 线程 的 执行 状态 转变 是 一 致 的 ， 分 析 的 结果 适合 用 户 线程 和 用 
户 进程 的 执行 过 程 。 
首先 为 了 描述 进程 /线程 的 整个 状态 集合 ，Ucore 在 kern/process/proc.h 中 定义 了 进程 /线程 的 运 
行 状态 : 

// process's state in his life cycle 


enum proc_state { 
PROC_UNINIT = 0, // uninitialized 


PROC_SLEEPING， // sleeping 
PROC_RUNNABLE, // runnable(maybe running) 
PROC_ZOMBIE， // almost dead, and wait parent proc to reclaim his resource 


}; 


这 与 操作 系统 原理 讲解 的 五 进程 执行 状态 相 比 ， 少 了 一 个 PROC_RUNNING 态 (表示 正在 占 
用 CPU 执行 ) ， a 用 current (基于 proc_strcut 数 据 结构 ) 进程 控制 块 指针 
指向 了 当前 正在 运行 的 进程 /线程 PROC_RUNNING 态 ， 所 以 ee 
PROC_RUNNING 态 了 。 那 么 那些 事件 或 内 核 函 数 会 触发 状态 的 转变 呢 ? 通过 分 析 uore 源 

码 ， 我 们 可 以 得 到 如 下 表示 : 


进程 状态 转变 原因 

PROC_UNINIT 执行 alloc_proc 骨 数 

PROC_SLEEPING 执行 try free pages, do _wait,do sleep 
六 数 

PROC_RUNNABLE 执行 proc_initis wakeup_proc 丙 数 , 有 此 


状态 的 进程 可 处 于 就 绪 淮 备 状态 或 占用 
CPU 运行 状态 


PROC_ZOMBIE 执行 do_exit 困 数 
当 父 进程 得 到 子 进 程 的 通知 ， 回 收 完 耶 进 程控 制 块 所 占 内 存 后 ， 这 个 进程 就 彻底 消失 了 。 我 
们 也 可 以 用 一 个 类 似 有 限 状 态 自动 机 来 表示 状态 的 变化 : (需要 用 visio 重 画 ) 


process state changing : 


alloc_proc RUNNING 
+ Ee 
再 + proc_run + 
V T= > > 


PROC_UNINIT -- proc_init/wakeup_proc --> PROC_ RUNNABLE -- try_free pages/do wait/do_sl 
eep --> PROC_ SLEEPING -- 


A 十 
下 

| +--- do exit --> PROC ZOMBIE 
天 

于 
于 


进程 调度 


实验 目标 


在 只 有 一 个 或 几 个 CPU 的 计算 机 系统 中 ， 进 程 数 量 一 般 远 大 于 CPU 数 量 ，CPU 是 一 个 稀缺 次 
源 ， 多 个 进程 不 得 不 分 时 占用 CPU 执行 各 自 的 工作 ， 操 作 系统 必须 提供 一 种 手段 来 保证 各 个 
进程 < 和 谐 " 地 共享 CPU 。 为 此 ， 需 要 在 lab3 的 基础 上 设计 实现 Ucore 进 程 调度 类 框架 以 便于 设 
计 各 种 进程 调度 算法 ， 同 时 以 提高 计算 机 整体 效率 和 尽量 保证 各 个 进程 “公平 "地 执行 作为 目标 
来 设计 各 种 进程 调度 算法 。 


proj13/13.1/13.2 概 述 


实现 描述 


project13 是 lab4 的 第 一 个 项 目 ， 它 基于 lab3 的 最 后 一 个 项 目 proj12。 主 要 参考 了 Linux-2.6.23 
设计 了 一 个 简化 的 进程 调度 类 框架 ， 能 够 在 此 框架 下 实现 不 同 的 调度 算法 ， 并 在 此 框架 下 实 
现 了 一 个 简单 的 FIFO 调 度 算法 。 接 下 来 的 proj13.1 在 此 调度 框架 下 实现 了 轮转 (Round 
Robin， 简 称 RR) 调度 算法 ，proj13.2 在 此 调度 框架 下 实现 了 多 级 反馈 队列 (Multi-Level 
Feed Back， 简 称 MLFB ) 调度 算法 。 


项 目 组 成 


| 一 Schedule 
| 一 sched.c 
| 一 sched_FCFS .c 
| 一 sched_FCFS .h 
[一 sched.h 
-ap 
| 一 trap.c 
La 








[一 user 
| 一 matrix.c 


17 directories, 129 files 


相对 与 proj12，proj13 增 加 了 3 个 文件 ， 修 改 了 相对 重要 的 5 个 文件 。 主 要 修改 和 增加 的 文件 如 
和 


e process/proc.[ch] : 扩展 了 进程 控制 块 的 定义 能 够 把 处 于 就 绪 态 的 进程 放 入 到 一 个 就 绪 队 
列 中 ， 并 在 创建 进程 时 对 新 扩展 的 成 员 变量 进行 初始 化 。 

。 Schedule/sched.[ch] : 增加 进程 调度 类 的 定义 和 相关 进程 调度 类 的 共性 函数 。 

。 schedule/sched_FCFS.[ch] : 基于 进程 调度 类 的 FCFS 调 度 算法 实例 的 设计 实现 ; 

。 schedule/sched.[ch] : 实现 了 一 个 先 来 先 服务 (First Come First Serve) 策略 的 进程 调 
度 。 

e Usermatrix.c : 矩阵 乘 用 户 测试 程序 


编译 并 运行 proj13 的 命令 如 下 : 


make 
make qemu 


则 可 以 得 到 如 下 显示 界面 


(THU.CST) os is loading ... 


Special kernel symbols: 

++ Setup timer interrupts 

kernel execve: pid = 3, name = "matrix". 

fork ok. 

pid 4 is running (1000 times)!. 

pid 4 done!. 

pid 5 is running (1400 times)!. 

pid 5 done!. 

pid 22 is running (33400 times)!. 

pid 22 done!. 

pid 23 is running (33400 times ) ! ， 

pid 23 done!. 

matrix pass. 

all user-mode processes have quit. 

init check memory pass. 

kernel panic at kern/process/proc.c:456: 
initproc exit. 


Welcome to the kernel debug monitor!! 
Type 'help' for a list of commands. 
K> 


这 其 实 是 在 采用 简单 的 FCFS 调 度 方法 来 执行 matrix 用 户 进 程 ， 这 个 matrix 进 程 将 创建 20 个 进 
程 来 各 自 执 行 二 维 矩 阵 乘 的 工作 。Ucore 将 按照 FCFS 的 调度 方法 ， we 
程 。 一 个 子 进 程 结 束 后 ， 再 调度 另外 一 个 子 进 程 运行 。 这 实际 上 看 不 出 ucore 是 如 

具体 实现 进程 调度 类 框架 。 ie 绍 一 下 进程 调度 的 基本 原 
理 ， 然 后 再 分 析 ucore 的 调度 框架 和 调度 算法 的 实现 。 


【原理 】 进 程 调度 


需要 进程 调度 的 理由 很 简单 ， 即 充分 利用 计算 机 系统 中 的 CPU 资源 ， 让 计算 机 系统 能 够 多 快 
好 省 地 完成 我 们 让 它 做 的 各 种 任务 。 为 此 ， 可 在 内 存 中 可 存放 数目 远 所 大 于 计算 机 系统 内 CPU 
个 数 的 进程 ， 让 这 些 进程 在 操作 系统 的 进程 调度 器 的 调度 下 ， 能 够 让 进程 高 效 (高 的 吞吐 量 -- 
a lO nih De Ne ro A i 此 度 可 设 
不 同 的 调度 算法 来 选择 进程 ， 这 体现 了 进程 调度 的 策略 ， 同 时 还 需 并 进 进程 的 上 下 
文 切换 (context switch ) 来 完成 进程 切换 ， 这 体现 了 进程 调度 的 机 制 。 总 ee ， 我 们 需要 
何 时 调度 (调度 的 时 机 ) 0 eae (调度 的 方式 ) 、 如 果 
0 《上 下 文 切换 ) 、 如 果 选 # 适 ” 的 进程 执行 (调度 策略 /调度 算法 ) 、 如 果 评 
价 选择 的 合理 性 (进程 调度 a 并 程 调度 


进程 调度 的 指标 


不 同 a 同 的 特征 ， 为 此 需要 建立 衡量 一 个 算法 的 基本 指标 。 一 般 而 言 
衡量 和 比较 各 种 进程 调度 算法 性 能 的 主要 因素 如 下 所 示 : 


e。 CPU 利用 率 : CPU 是 计算 机 系统 中 的 稀缺 资源 ， 所 以 应 在 有 具体 任务 的 情况 下 尽 可 能 使 
CPU 保持 忙 ， 从 而 使 得 CPU 资源 利用 率 最 高 。 

。 吞吐 量 : CPU 运行 时 的 工作 量 大 小 是 以 每 单位 时 间 所 完成 的 进程 数目 来 描述 的 ， 即 称 为 

吞吐 量 。 

周转 时 间 : 指 从 进程 创建 到 作 进 程 结 束 所 经 过 的 时 间 ， 这 期 间 包 括 了 由 于 各 种 因素 ( 比 

如 等 待 JO 操 作 完 成 ) 导致 的 进程 阻塞 ， 处 于 就 绪 态 并 在 就 绪 队 列 中 排队 ， 在 处 理 机 上 运 

行 所 花 时 间 的 总 和 。 

。 等 待 时 间 : 即 进程 在 就 绪 队 列 中 等 待 所 花 的 时 间 总 和 。 因 此 衡量 一 个 调度 算法 的 简单 方 

法 就 是 统计 进程 在 就 绪 队 列 上 的 等 待 时 间 。 

响应 时 间 : 指 从 事件 (比如 产生 了 一 次 时 钟 中 断 事 件 ) 产生 到 nn 所 经 
过 的 时 间 。 在 交互 式 桌 面 计 算 机 系统 中 ， 用 户 希 望 响应 时 间 越 快 越 好 ， 但 这 常常 要 以 牺 

牲 吞吐 量 为 代价 。 


这 些 指标 其 实 是 相互 有 冲突 的 ， 响 应 时 间 短 也 就 意味 着 在 相关 事件 产生 后 ， 操 作 系统 需 
要 迅速 进行 进程 切换 ， 让 对 应 的 进程 尽快 响应 产生 的 事件 ， 从 而 导致 进程 调度 与 切换 的 
开销 增 大 ， 这 会 降低 系统 的 吞吐 量 。 


进程 调度 的 时 机 


进程 调度 发 生 的 时 机 (也 称 为 调度 点 ) 与 进程 的 状态 变化 有 直接 的 关系 。 回 顾 进 程 状态 变化 
图 ， 我 们 可 以 看 到 进程 调度 的 时 机 直接 与 进程 在 运行 态 <--> 退 出 态 /就绪 态 /阻塞 态 的 转变 时 机 
相关 。 简 而 言 之 ， 引 起 进程 调度 的 时 机 可 归结 为 以 下 几 类 : 


。 正在 执行 的 进程 执行 完毕 ， 需 要 选择 新 的 就 绪 进 程 执行 。 

e 正在 执行 的 进程 调用 相关 系统 调用 (包括 与 /OQ 操作， 同步 互 斥 操作 等 相关 的 系统 调用 ) 
导致 需 等 待 某 事件 发 生 或 等 待 资源 可 用 ， 从 而 将 白 己 阻 塞 起 来 进入 阻塞 状态 。 

。 正在 执行 的 进程 主动 调用 放弃 CPU 的 系统 调用 ， 导 致 自己 的 状态 为 就 绪 态 ， 且 把 自己 重 
新 放 到 就 绪 队 列 中 。 

e。 等 待 事件 发 生 或 资源 可 用 的 进程 等 待 队 列 ， 从 而 导致 进程 从 阻塞 态 回 到 就 绪 态 ， 并 可 参 
与 到 调度 中 。 

e 正在 执行 的 进程 的 时 间 片 已 经 用 完 ， 致 自己 的 状态 为 就 绪 态 ， 且 把 自己 重新 放 到 就 绪 队 
列 中 。 

。 在 执行 完 系 统 调 用 后 准备 返回 用 户 进程 前 的 时 刻 ， 可 调度 选择 一 新 用 户 进程 执行 

。 就 绪 队 列 中 某 进 程 的 优先 级 变 得 高 于 当前 执行 进程 的 优先 级 ， 从 而 也 将 引发 进程 调度 


进程 调度 的 方式 


这 里 需要 注意 ， 存 在 两 种 进程 抢占 处 理 器 的 调度 方式 : 


。 可 抢占 式 (可 剥夺 式 ，preemptive) : 就 绪 队 列 中 一 旦 有 某 进 程 的 优先 级 高 于 当前 正在 执 
行 的 进程 的 优先 级 时 ， 操 作 系 统 便 立 即 进 行进 程 调度 ， 完 成 进程 切换 。 

。 不 可 抢占 式 (不 可 剥夺 式 non_preemptive) : 即使 在 就 绪 队 列 存在 有 某 进 程 优先 级 高 于 
当前 正在 执行 的 进程 的 优先 级 时 ， 当 前 进程 仍 将 占用 处 理 机 执行 ， 直 到 该 进程 自己 进入 
阻塞 状态 ， 或 时 间 片 用 完 ， 或 在 执行 完 系统 调用 后 准备 返回 用 户 进程 前 的 时 刻 ， 才 重新 
发 生 调 度 让 出 处 理 机 。 


显然 ， 可 抢占 式 调度 可 有 效 减 少 等 待 时 间 和 响应 时 间 ， 但 会 带 来 较 大 的 其 他 管理 开销 ， 使 得 

吞吐 量 等 的 性 能 指标 比 不 可 抢占 式 调度 要 低 。 所 以 一 般 在 桌面 计算 机 中 都 支持 可 抢占 式 调 

度 ， 使 得 用 户 可 以 得 到 更 好 的 人 机 交互 体验 ， 而 在 服务 器 领域 不 必 非 要 可 抢占 式 调度 ， 而 通 
常会 采用 不 可 抢占 式 调度 ， 从 而 可 提高 系统 的 整体 吞吐 量 。 


进程 调度 的 策略 /算法 


在 早期 操作 系统 的 调度 方式 大 多 数 是 非 剥 夺 的 ， 这 是 由 于 早期 的 应 用 一 般 是 科学 计算 或 事务 
处 理 ， 不 大 把 人 机 交互 的 响应 时 间 指 标 放 在 首要 位 置 。 在 这 种 情况 下 ， 正 在 运行 的 进程 可 一 
直 占 用 CPU 直到 进程 阻塞 或 终止 。 这 种 方式 的 调度 算法 可 以 很 简单 ， 且 比较 适用 对 于 响应 时 
间 不 关心 或 者 关心 甚 少 的 批 处 理科 学 计算 或 事务 处 理应 用 。 随 着 计算 机 的 应 用 领域 进 一 


展 ， 计 算 机 更 多 地 用 在 了 多 媒体 等 人 机 交互 应 用 上 ， 为 此 采用 可 抢占 式 的 调度 方式 可 在 一 个 
进程 终止 或 阻塞 之 前 就 剥夺 其 执行 权 ， 把 CPU 尽快 分 配给 另外 的 “更 重要 "进程 ， 使 得 就 绪 队 列 
中 的 进程 有 机 会 响应 它们 用 户 的 IO 事件。 基于 这 两 种 方式 的 调度 算法 如 下 : 


先 来 先 服务 (FCFS) 调度 算法 : ee 顺序 链 入 到 就 绪 队 列 中 ， 而 
FCFS 调 度 算 法 按 就 绪 进 程 进入 就 绪 队 列 的 先后 os 先 择 当前 最 先进 入 就 绪 队 列 的 进程 来 


执行 ， 直 到 此 进程 阻塞 或 结束 ， 才 进行 下 一 次 的 进 0 ed 
不 可 抢占 的 调度 TS 运行 下 去 ， 直 到 该 进程 完成 其 
人 续 执行 时 ， 人 


程 调度 nd 程 会 使 很 多 晚 到 的 且 运 行 时 间 短 的 进 
的 等 待 时 间 过 长 。 
短 作业 优先 (SJF) 调度 算法 : 其 实 目前 作业 的 提 法 越 来 越 少 ， 我 们 姑且 把 “作业 "用 "“ 进 
程 ? 来 替换 ， 改 称 为 短 进 程 优先 调度 算法 ， 此 算法 选择 就 绪 队 列 中 确切 〈 或 估计 ) 运行 时 
间 最 短 的 进程 进入 执行 。 它 既 可 采用 可 抢占 调度 方式 ， 也 可 采用 不 可 抢占 调度 方式 。 可 
抢占 的 短 进程 优先 调度 算法 通常 也 叫做 最 短 剩余 时 间 优 先 (Shortest Remaining Time 
First，SRTF ) 调度 算法 。 短 进程 优先 调度 算法 能 有 效 地 缩短 进程 的 平均 周转 时 间 ， 提 高 
系统 的 符 吐 量 ， 但 不 利于 长 进程 的 运行 。 而 且 如 果 进 程 的 运行 时 间 是 “估计 ?出 来 的 话 ， 会 
导致 由 于 估计 的 运行 时 间 不 一 定 准 确 ， 而 不 能 实际 做 到 短 作 业 优先 
时 间 片 轮转 (RR) 调度 算法 : RR 调度 算法 与 FCFS 调度 算法 在 选择 进程 上 类 似 ， 但 在 
调度 的 时 机 选择 上 不 同 。RR 调 度 算法 定义 了 一 个 的 时 间 单 元 ， 称 为 时 间 片 (或 时 间 
， 。 一 个 时 间 片 el ee 。 当 正在 运行 的 进程 用 完了 时 间 片 后 ， 即 使 此 进 
还 要 运行 ， 操 作 系 统 也 不 让 它 继续 运行 ， 而 是 从 就 绪 队 列 依 次 选择 下 一 个 处 于 就 绪 态 
7 ， 而 被 剥夺 CPU 使 用 ee 就 绪 队 列 的 末尾 ， 等 待 再 次 被 调度 。 时 间 
片 的 大 小 可 调整 ， 如 果 时 间 片 大 到 让 一 个 进程 足以 完成 其 全 部 工作 ， 这 种 算法 就 退化 为 
FCFS 调 度 算法 ; 若 时 间 片 设置 得 很 小 ， 那么 处 理 机 在 进程 之 间 的 进程 上 下 文 切换 工作 过 
于 频繁 ， 使 得 盖 正 用 于 运行 用 户 程序 的 时 间 减 少 。 时 间 片 可 以 静态 设置 好 ， 也 可 根据 系 
统 当 前 负载 状况 和 运行 情况 动态 调整 ， 时 间 片 大 小 的 动态 调整 需要 考虑 就 绪 态 进程 个 
数 、 进 程 上 下 文 切 换 开 销 、 系 统 知 吐 量 、 系 统 响应 时 间 等 多 方面 因素 。 
高 响应 比 优 先 (Highest Response Ratio First，HRRF) 调度 算法 : HRRF 调 度 算法 是 4 
于 先 来 先 服 务 算法 与 最 短 进程 优先 算法 之 间 的 一 种 折 中 算法 。 先 来 先 服 务 算法 只 考虑 进 
程 的 等 待 时 间 而 忽视 了 进程 的 执行 时 间 ， 而 最 短 进程 优先 调度 算法 只 考虑 用 户 估 计 的 进 
程 的 执行 时 间 而 忽视 了 就 绪 进 程 的 等 待 时 间 。HRRF 调 度 算法 二 者 兼顾 ， 既 考虑 进程 等 待 
时 间 ， 又 考虑 进程 的 执行 时 间 ， 为 此 定义 了 响应 比 (Rp) 这 个 指标 : 


介 


Rp= (等 待 时 间 + 预 计 执 行 时 间 ) /执行 时 间 = 响 应 时 间 / 执 行 时 间 


上 个 表达 式 假设 等 待 时 间 与 预计 执行 时 间 之 和 等 于 响应 时 间 。HRRF 调 度 算法 将 选择 Rp 
最 大 值 的 进程 执行 ， 这 样 既 照顾 了 短 进程 又 不 使 长 进程 的 等 待 时 间 过 长 ， 改 进 了 调度 性 
能 。 但 HRRF 调 度 算 法 需要 每 次 计算 各 各 个 进程 的 响应 比 Rp， 这 会 带 来 较 大 的 时 间 开 销 
(特别 是 在 就 绪 进 程 个 数 多 的 情况 下 ) 。 


e@ 多 级 反馈 队列 (Multi-Level Feedback Queue) 调度 算法 : 在 采用 多 级 反馈 队列 调度 算法 
的 执行 逻辑 流程 如 下 : 


o 设置 多 个 就 绪 队 列 ， 并 为 各 个 队列 赋予 不 同 的 优先 级 。 第 一 个 队列 的 优先 级 最 高 ， 
第 二 队 次 之 ， ss a 
器 才 会 调度 第 i 个 队列 中 的 进程 运 WA 
。 在 优先 级 越 高 的 队列 中 ， 每 个 进程 的 执行 时 间 片 就 越 小 或 越 大 (Linux-2.4 
内 核 就 是 采用 这 种 方式 ) 。 

o 当 一 个 就 绪 进 程 需要 链 入 就 绪 队 列 时 ， 操 作 系 统 首先 将 它 放 入 第 一 队列 的 末尾 ， 按 
FCFS 的 原则 排队 等 待 调 度 。 若 轮 到 该 进程 执行 且 在 一 个 时 间 片 结束 时 尚未 完成 ， 则 
操作 系统 调度 器 便 将 该 进程 转 入 第 二 队列 的 末尾 ， 再 同样 按 先 来 先 服务 原则 等 待 调 

度 执 行 。 如 此 下 去 ， 当 一 个 长 进程 从 第 一 队列 降 到 最 后 一 个 队列 后 ， 在 最 后 一 个 队 
列 中 ， 可 使 用 FCFS 或 RR 调度 算法 来 运行 处 于 此 队列 中 的 进程 。 

o 如 果 处 理 机 正在 第 1 (i>1) 队列 中 为 某 进 程 服务 时 ， 又 有 新 进程 进入 第 k (k<i) 的 队 
列 ， 则 新 进程 将 抢占 正在 运行 进程 的 处 理 机 ， 即 由 调度 程序 把 正在 执行 进程 放 回 第 i 
队列 末尾 ， 重 新 将 处 理 机 分 配给 处 于 第 k 队 列 的 新 进程 。 

从 MLFQ 调 度 和 工法 可 以 看 出 长 进程 无 法 长 期 占用 处 理 机 ， 且 系统 的 响应 时 间 会 缩短 ， 吞 吐 
量 也 不 错 (前 提 是 没有 频繁 的 短 进程 ) 。 所 以 MLFQ 调 度 算 法 是 一 种 合适 不 同类 型 应 用 特 
征 的 综合 进程 调度 算法 。 


。 最 高 优先 级 优先 调度 算法 : 进程 的 优先 级 用 于 表示 进程 的 重要 性 及 运行 的 优先 性 。 一 个 
进程 的 优先 级 可 分 为 两 种 : 静态 优先 级 和 动态 优先 级 。 静 态 优 先 级 是 在 创 
的 。 一 旦 确定 后 ， 在 整个 进程 运行 期 间 不 再 改变 。 静 态 优先 级 一 般 由 用 户 依 据 包 括 进 
的 类 型 、 进 程 所 使 用 的 资源 、 进 程 的 估计 运行 时 间 等 因素 来 设置 。 一 般 而 言 ， 若 进程 需 
要 的 资源 越 多 、 估 计 运 行 的 时 间 越 长 ， 则 进程 的 优先 级 越 低 ; 反之 ， 对 于 I/O bounded 的 
进程 可 以 把 优先 级 设置 得 高 。 动 态 优先 级 是 指 在 进程 运行 过 程 中 ， 根 据 进程 执行 情况 的 
变化 来 调整 优先 级 。 动 态 优先 级 一 般 根 据 进程 占有 CPU 时 间 的 长 短 、 进 程 等 待 CPU 时 间 
的 长 短 等 因素 确定 。 占 有 处 理 机 的 时 间 越 长 ， 则 优先 级 越 低 ， 等 待 时 间 越 长 ， 优 先 级 越 

高 。 那 么 进程 调度 器 将 根据 静态 优先 级 和 动态 优先 级 的 总 和 现在 优先 级 最 高 的 就 绪 进 程 


人 
2 
~ 


操作 系统 中 为 了 能 够 让 每 个 进程 都 有 机 会 运行 ， 需 要 给 每 个 进程 分 配 一 个 时 间 片 ， 当 一 个 进 
程 的 时 间 片 用 完 以 后 ， 操 作 系 统 的 调度 器 就 会 让 当前 进程 放 译 CPU， 而 选择 另外 一 个 进程 占 
用 CPU 执行 。 为 了 有 效 地 支持 进程 调度 所 需 的 时 间 片 ，ucore 设 计 并 实现 了 一 个 timer (计时 
器 ) 功能 。 这 样 ， 通 过 timer 就 对 基于 时 间 事 件 的 调度 机 制 提 供 了 基本 支持 。 


【实现 】 进 程 调度 


内 核 的 抢占 性 


调度 本 质 上 体现 了 对 CPU 资 源 的 抢占 。 对 于 用 户 进程 而 言 ， 由 于 有 中 断 的 产生 ， 可 以 随时 打 
断 用 户 进 程 的 执行 ， 转 到 操作 系统 内 部 ， 从 而 给 了 操作 系统 以 调度 控制 权 ， 让 操作 系统 可 以 
根据 具体 情况 (比如 用 户 进程 时 间 片 已 经 用 完了 ) 选择 其 他 用 户 进程 执行 。 这 体现 了 用 户 进 
程 的 可 抢占 性 (preemptive) 。 但 如 果 把 ucore 操 作 系 统 也 看 成 是 一 个 特殊 的 内 核 进程 或 多 个 
内 核 线程 的 集合 ， 那 Ucore 是 否 也 是 可 抢占 的 呢 ? 其 实 ucore 内 核 执行 是 不 可 抢占 的 (non- 
preemptive) ， 即 在 执行 "任意 ?内 核 代 码 时 ，CPU 控 制 权 可 被 强制 剥夺 。 这 里 需要 注意 ， 不 是 
在 所 有 情况 下 ucore 内 核 执行 都 是 不 可 抢占 的 ， 有 以 下 几 种 “国定 "情况 是 例外 : 


1， 进行 同步 互 斥 操作 ， 上 比如 争 抢 一 个 信号 量 、 锁 (lab5 中 会 详细 分 析 ) 
2.， 进行 磁 盘 读 写 等 耗 时 的 蜡 步 操作 ， 由 于 等 待 完成 的 耗 时 太 长 ，Ucore 会 调用 shcedule 让 其 
他 就 绪 进 程 执行 。 


这 几 种 情况 其 实 都 是 由 于 当前 进程 所 需 的 某 个 资源 〈 也 可 称 为 事件 ) 无 法 得 到 满足 ， 无 法 继 
续 执 行 下 去 ， 从 而 不 得 不 主动 放弃 对 CPU 的 控制 权 。 如 果 参 照 用 户 进程 任何 位 置 都 可 被 内 核 
打 断 并 放 育 CPU 控 制 权 的 情况 ， 这 些 在 内 核 中 放弃 CPU 控 制 权 的 执行 地 点 是 “固定 ”而 不 是 “ 任 
意 ” 的 ， 不 能 体现 内 核 任意 位 置 都 可 抢占 性 的 特点 。 我 们 搜寻 一 下 proj13 的 代码 ， 可 发 现在 如 
下 几 处 地 方 调 用 了 shedule 有 函数 : 


调用 进程 调度 函数 Schedule 的 位 置 和 原 


编 ， 位置 原因 


号 
] swap.c::try_free_page 用 户 进程 申请 内 存 无 法 得 到 满足 ， 主 动 放弃 对 CPU 
控制 权 , 等 待 kswapd 内 核 线程 释放 出 足够 多 的 空闲 
空间 
2 proc .c::do_exit 用 户 线程 执行 结束 ， 主 动 放弃 CPU 控制 权 
3 roc.c::do_wait 用 户 线程 等 待 子 进程 结束 ， 主 动 放 弃 CPU 控制 权 
4 yoc.c::d0o_sleep 用 户 线程 要 睡眠 一 段 时 间 ， 主 动 放弃 CPU 控制 权 
5 roc.c::init_main 1. initproe 内 核 线 程 等 待 所 有 用 户 进程 结束 ， 如 果 
没有 结束 ,就 主动 放弃 CPU 控制 权 ; 
2. initproc 内 核 线程 在 所 有 用 户 进程 结束 后 ， 让 
kswapd 内 核 线程 执行 10 次 , 用 于 回收 空闲 内 存 
资源 
6 prmoc:c:scpu idle idleproc .内核 线程 的 工作 就 是 等 待 有 处 于 就 绪 态 的 
进程 或 线程 ， 如 果 有 就 调用 schedule 示 数 
7 ,sync.h::lock 在 获取 锁 的 过 程 中 ， 如 果 无 法 得 到 锁 ， 则 主动 放弃 
CPU 控制 权 
8 .trap.c::trap 如 果 在 当前 进程 在 用 户 态 被 打 断 去 ， 且 当前 进程 控 


制 块 的 成 员 变量 need_resched 设置 为 1， 则 当前 线 
组 会 放弃 ,CPU 控制 权 


仔细 分 析 上 述 位 置 ， 第 1、2、3、4、7 处 的 执行 位 置 体现 了 由 于 访问 磁盘 数据 的 资源 或 获取 锁 
资源 一 时 等 不 到 满足 、 进 程 要 退出 、 进 程 要 睡眠 等 原因 而 不 得 不 主动 放弃 CPU 。 第 5、6 处 的 
执行 位 置 比 较 特殊 ，initproc 内 核 线程 等 待 用 户 进程 结束 和 执行 kwapd 内 核 线程 而 执行 
schedule 函 数 ; idle 内 核 线程 在 没有 进程 处 于 就 绪 态 时 才 执 行 ， 一 旦 有 了 就 绪 态 的 进程 ， 它 将 
执行 Schedule 函数 完成 进程 调度 。 这 里 只 有 第 8 处 的 位 置 比 较 特 殊 : 


if (!in_kernel) { 
If (current->need_resched) { 
Schedule(); 


这 里 表明 了 只 有 当 进 程 在 用 户 态 执行 到 "任意 ” 某 处 用 户 代 码 位 置 时 发 生 了 中 断 ， 且 当前 进程 控 
制 块 成 员 变 量 need_resched 为 1 (表示 需要 调度 了 ) 时 ， 才 会 执行 shedule 有 函数 。 这 实际 上 体 
现 了 对 用 户 进 程 的 可 抢占 性 。 如 果 没 有 第 一 行 的 if 语 句 ， 那 么 就 可 以 体现 对 内 核 代码 的 可 抢占 
性 。 但 如 果 要 把 这 一 行 if 语 句 去掉， 我 们 不 得 不 实现 对 ucore 中 的 所 有 全 局 变量 的 互 斥 访问 操 
作 ， 以 防止 所 谓 的 race condition 现 象 (在 lab5 中 有 进一步 讲述 ) ， 这 样 uUcore 的 实现 复杂 度 会 
增加 不 少 。 


进程 调度 时 机 


我 们 可 以 知道 ucore 通 过 进程 控制 块 的 state 成 员 变 量 来 表示 进程 的 运行 状态 ， we 
的 进程 和 运行 态 的 进程 在 ucore 中 的 运行 状态 都 是 PROC_RUNNABLE。 那 如 何 进一步 区 分 
于 就 绪 态 的 进程 和 运行 态 的 进程 呢 ? 在 ucore 中 ， 有效 于 就 吉 的 过 和 会 针 丰 一 个 二 
列 rq (run queue 的 简称 ) ， 而 处 于 运行 态 的 进程 ee en 程 调度 器 选择 
出 来 的 一 个 进程 ， 此 进程 会 从 此 就 绪 队 列 中 断 开 ， 并 开始 占用 CPU 执行 。 这 说 明 ， 没 有 挂 在 
就 绪 队 列 且 运 行 状态 为 PROC_RUNNABLE 的 进程 是 处 于 运行 态 的 进程 。 


根据 进程 状态 变化 过 程 的 分 析 ， 我 们 可 以 知道 选择 一 Dd ae 到 运行 态 是 
进程 调度 器 的 主要 工作 。 在 Ucore 内 核 中 哪些 地 方 会 进行 调度 呢 ? 实 与 进程 的 3 
化 的 时 机 相关 ， 回 想 4.4.5 小 节 描 述 的 进程 状态 变化 过 程 ， Ge 需要 进 
行进 程 调度 的 。 这 里 需要 更 深入 地 分 析 从 运行 态 到 其 他 状态 相关 转换 的 情况 


时 


运行 态 到 就 绪 态 的 变化 过 程 


首先 来 看 运行 态 到 就 绪 态 的 变化 过 程 。 进 程 主动 /被 动 放弃 CPU 回 到 就 绪 态 的 起 因 有 两 个 。 一 
个 起 因 是 用 户 进程 主动 从 运行 态 回 到 就 绪 态 ， 即 用 户 进程 调用 yield 用 户 态 库 函 数 ， 此 库 函 数 
接 下 来 的 调用 路 径 如 下 : 


yield( 用 户 态 )-->sys_yeild( 用 户 态 )-->sys_yeild (内 核 态 ) -->do_yield( 内 核 态 ) 


do_yeild 内 核 了 苑 数 仅 仅 把 当前 进程 的 进程 控制 块 成 员 变 量 need resched 设 置 为 1。 


int 

do_yield(void) { 
current->need_resched = 1; 
return 0; 


另外 一 个 起 因 是 在 进程 调度 器 采用 类 似 时 间 片 轮转 调度 (RR) 策略 的 前 提 下 ， 用 户 进 
时 间 片 用 完 被 动 地 从 运行 态 回 到 就 绪 态 的 情况 ， 即 当时 钟 中 断 积 累 到 一 定 的 时 间 片 段 (给 

户 进程 设置 能 够 持续 占用 CPU 运行 的 时 间 ) 后 ， 如 果 一 个 用 户 进程 还 在 持续 运行 ， ee 
要 强制 剥夺 用 户 进程 的 CPU 使 用 权 ， 即 把 当前 进程 重新 插入 到 就 绪 队 列 中 ， 并 从 就 绪 队 列 中 
再 选择 另外 一 个 “合适 "的 进程 执行 。 时 钟 中 断 产 生 后 ， 整 个 执行 过 程 的 函数 调用 路 径 如 下 : 


vetcor32--> alltraps-->trap-->trap_dispatch-->run_timer list -->sched_ class_ proc_tick 
-->XXX_proc_tick 


注意 XXX_proc tick 是 某 个 具体 进程 调度 器 XXX 对 产生 时 钟 中 断后 的 特定 处 理 函 数 。 比 如 对 于 
FCFS 调 度 器 而 言 ， 它 没有 考虑 时 间 片 轮转 的 情形 ， 所 以 实际 的 FCFS_proc tick 函 数 啥 也 没 
干 。 但 如 果 是 RR 调度 器 (在 lab4/proj13.1 中 实现 ) ， 这 实际 的 RR_proc tick 则 需要 递减 当前 
进程 拥有 的 时 间 片 ， 并 判断 当前 进程 的 时 间 片 是 否 已 经 用 完 ， 如 果 用 完了 ， 则 需要 把 当前 进 
程 的 进程 控制 块 成 员 变量 need_resched 设 置 为 1。 


static void 
RR_proc_tick(struct run_queue *rq, struct proc_struct *proc) { 
If (proc->time_slice > 0) { 
proc->time_slice --; 


} 

if (proc->time_slice == 0) { 
proc->need_resched = 1; 

} 


其 实 把 当前 进程 的 进程 控制 块 成 员 变量 need resched 设 置 为 1 只 是 指出 了 需要 调度 ， 但 并 没有 
实现 调度 。 那 需要 在 哪里 完成 调度 呢 ? 注意 到 上 一 小 节 “ 内 核 的 抢占 性 "中 ， 我 们 可 以 看 到 ， 实 
际 上 ucore 只 是 在 中 断 或 异常 返回 的 时 候 ， 如 果 在 用 户 态 被 中 断 的 当前 用 户 进 程 need_resched 
设置 为 1， 则 会 执行 Schedule 函数， 完成 进程 调度 与 切换 。 


运行 态 到 就 睡眠 态 的 变化 过 程 


参考 上 表 (调用 进程 调度 函数 schedule 的 位 置 和 原因 ) ， 我 们 可 以 看 到 有 有 三 个 地 方 : 第 1、 
3、4 处 的 执行 代码 会 导致 当前 进程 转变 到 睡眠 态 。 第 一 个 是 由 于 当前 进程 申请 内 存 无 法 得 到 
满足 ， 需 通过 Ty free_pages 函 数 ， 主 动 放弃 对 CPU 控制 权 ， 等 待 Kkswapd 内 核 线程 释放 
出 足够 多 的 空闲 空间 。 这 里 采用 了 等 待 队列 的 机 制 实现 进程 睡眠 : 


local_intr_save(intr_flag); 


{ 
wait_init(wait, current); 
current->state = PROC_SLEEPING ， 
current->wait_state = WT_KSWAPD; 
wait_queue add(&kswapd_done, wait); 
if (kswapd->wait_state == WT_TIMER) { 

wakeup_proc(kswapd); 

} 

} 

local_ intr_restore(intr_flag); 

schedule(); 


上 述 代码 很 清楚 地 表明 了 当前 进程 的 状态 转变 为 睡眠 状态 ， 睡 眠 原因 是 WT _KSWAPD， 即 等 
待 内 核 线程 Kswapd 释 放出 更 多 的 空 亲 内存， 并 执行 Schedule 部 数 ， 把 自身 从 就 绪 队 列 中 删 
除 ， 并 选择 新 的 就 绪 进 程 占用 CPU 执 行 。 第 二 个 是 do_wait 函 数 。 用 户 进程 执行 wait/waitpid 
用 户 库 部 数 ,并 进一步 调用 sys_wait 用 户 济 数 和 sys_wait 内 核 函 数 后 ， 将 调用 do_wait 部 数 完 成 
实际 的 父 进程 等 待 子 进程 的 工作 。 相 关 代 码 如 下 : 


if (haskid) { 
current->state = PROC_ SLEEPING ， 
current->wait_state = WT_CHILD; 
schedule(); 


a 此 函数 判断 如 果 当 前 进程 有 有 子 进程 ， 则 会 设置 当前 进程 状态 转变 为 睡眠 状态 ， 睡 眠 原因 
是 WT_CHILD， 即 等 待 子 进程 结束 ， 并 执行 Schedule 函 数 ， 把 自身 从 就 绪 队 列 中 删除 ， 并 选 
择 新 的 就 绪 进 程 占 用 CPU 执行 。 第 三 个 是 do_sleep 函 数 。 用 户 进程 执行 sleep 用 户 库 函 数 来 实 
现 n 毫 秒 睡 眠 ， 这 将 进一步 调用 sys_sleep 用 户 函 数 和 sys_sleep 内 核 函 数 后 ， 最 终 调 用 
do_sleep 完 成 实际 的 睡眠 操作 。 相 关 代 码 如 下 : 


do_sleep(unsigned int time) { 
if (time == 0) { 
return 0; 


} 

bool intr_flag; 

local_intr_save(intr_flag); 

timer_t _ timer, *timer = timer_init(& timer, current, time); 
current->state = PROC_SLEEPING ， 

current->wait_state = WT_TIMER; 

add_timer(timer); 

local_ intr_restore(intr_flag); 


schedule(); 


可 以 看 出 会 设置 当前 进程 状态 转变 为 睡眠 状态 ， 睡 眠 原因 是 WT_TIMER， 即 等 待定 时 器 到 
时 ， 并 执行 Schedule 函数 ， 把 自身 从 就 绪 队 列 中 删除 ， 并 选择 新 的 就 绪 进 程 占用 CPU 执行 。 
这 里 采用 了 定时 器 机 制 (参见 4.2.5 小 节 ) ， 通 过 调用 timer_init 函 数 来 创建 定时 器 ， 并 调用 
add_timer 况 数 来 设置 定时 器 运转 ， 当 时 间 time 到 后 ， 会 唤醒 当前 进程 。 


运行 态 到 就 退出 态 的 变化 过 程 

当 用 户 进程 执行 完毕 (或 者 被 要 求 强行 退出 ) 后 ee exit 有 函数 完成 对 自身 所 占 部 分 资 
源 的 回收 ， 并 执行 进程 调度 切换 。 参 考 上 表 (调用 进程 调度 函数 Schedule 的 位 置 和 原因 ) ， 
我 们 可 以 看 到 第 2 处 的 do_exit 骂 数 的 代码 实现 从 运行 0 态 的 变化 过 程 ， 


current->state = PROC_ ZOMBIE; 
current->exit_code = error_code; 


ed schedule(); 


可 以 看 出 会 设置 当前 进程 状态 转变 为 退出 状态 ， 并 执行 Schedule 函数 ， 把 自身 从 就 绪 队 列 中 
删除 ， 并 选择 新 的 就 绪 进 程 占用 CPU 执行 。 


进程 切换 过 程 


进程 切换 的 具体 过 程 发 生 在 内 核 态 ， 我 们 以 对 于 基于 时 间 片 的 进程 调度 过 程 来 具体 分 析 两 个 
人 。 首 先 在 执行 进程 1 的 用 户 代 码 时 ， 出 现 了 一 个 trap (例如 是 一 个 Timer 中 
断 )， 这 个 时 候 就 会 从 进程 1 的 用 户 态 切换 到 内 核 态 (过 程 (1))， 并 且 保 存 好 进程 1 的 
trapframe ; 当 ucore 在 处 理 中 断 时 发 现 此 进程 的 时 间 片 已 经 用 完 ， 就 会 设置 进程 1 的 进程 控制 
块 的 need resched 为 1， 表明 需 要 进行 进程 调度 ，Ucore 于 是 进一步 执行 schedule 有 函数， 并 
通过 此 函数 把 进程 1 重新 放 回 就 绪 队 列 ， 选 择 了 另 一 个 进程 一 进程 2， 
摘除 ， 这 时 需要 调用 proc_run 函 数 来 具体 完成 进程 切换 了 。 我 们 来 看 看 切换 的 过 


void 
proc_run(struct proc_struct *proc) { 
if (proc != current) { 
bool intr_flag; 
struct proc_struct *prev = current, *next = proc; 
local_intr_save(intr_flag); 


{ 
current = proc; 
load espO(next->kstack + KSTACKSIZE); 
lcr3(next->cr3); 
switch_to(&(prev->context), &(next->context)); 
} 
local intr_restore(intr_flag); 


从 上 面 的 代码 可 以 看 出 ，proc run 的 函数 参数 proc 是 进程 2， 而 current 是 进程 1， 首 先 调用 
load_esp0 需 要 设置 进程 2 用 户 态 返回 到 内 核 态 的 内 涵 栈 寄存 器 指针 ( 即 TS 段 的 ESP0) ; 然 

后 页 表 基 址 (CR3 寄 存 器 的 内 容 ) 设置 为 进程 2 的 页 表 基 址 ， 虽 然 换 了 一 个 页 表 基 址 ， 但 由 于 
所 有 进程 在 内 核 中 都 用 的 是 同一 个 内 核 庶 拟 地 址 空间 ， 所 以 切换 后 只 要 在 内 核 态 执行 ， 并 访 
问 内 核 地 址 空间 ， 那 实际 上 没 啥 变化 ， 而 只 是 在 进程 2 返回 到 用 户 态 的 时 候 ， 所 用 的 用 户 地 址 

空间 与 进程 1 的 用 户 地 址 空间 就 不 一 样 了 ; 最 后 一 步 是 调用 switch_to 有 函数 切换 进程 运行 相关 的 
硬件 寄存 器 内 容 (具体 过 程 可 回顾 4.1.5 节 的 第 3 小 节 “ 调 度 并 执行 内 核 线程 initproc”) 。 一 旦 执 
行 完 Switch_to 的 最 后 一 个 指令 “RET" 后 ， 就 彻底 切换 到 进程 2 的 执行 环境 了 。 


到 了 进程 2 的 执行 环境 ， 首 先 继续 执行 进程 2 上 一 次 在 内 核 态 的 操作 ， 并 最 终 通过 中 断 或 异常 


的 返回 操作 回 到 进程 2 的 用 户 空间 执行 。 类 似 上 述 描述 过 程 ， 当 进程 2 由 于 某 种 原因 发 生 中 断 
之 后 ， 并 需要 切换 到 进程 1 ; 当 再 次 切换 到 进程 1 时 ， 会 执行 进程 1 上 一 次 在 内 核 调用 


Schedule (具体 还 要 跟踪 到 Switch to 函数 ) 函数 后 的 下 一 行 代码 ， 这 行 代码 当然 还 是 在 进程 1 
的 上 一 次 中 断 处 理 的 位 置 处 。 最 后 当 进 程 1 的 中 断 处 理 完 毕 的 时 候 ， 执 行 权 又 会 反 交 给 进程 
1 的 用 户 代 码 9 大 致 流程 如 下 所 示 < 





【 问题】 进程 切换 的 工作 可 以 在 用 户 态 实现 吗 ? (提示 ， 如 果 是 用 户 线程 ， 人 甬 
0 表 和 内 核 栈 等 ， 只 在 用 户 态 执 行 ， 那 就 可 以 在 用 户 态 实现 用 户 线 程 的 切换 ， 这 就 是 
常用 户 态 线程 库 的 实现 ) 


【问题 】 进 程 切 换 以 后 ， 当 前 进程 是 从 哪里 开始 执行 的 ? (提示 ， 虽 然 还 是 同一 个 cpu， 但 是 
此 时 使 用 的 资源 已 经 完全 不 同 了 。 ) 


【问题 】 内 核 在 第 一 个 用 户 进程 运行 的 时 候 ， 需 要 进行 哪些 操作 ?了 (提示 ， 内 核 运 行 第 一 个 
用 户 进程 的 过 程 ， 实 际 上 是 从 启动 时 的 内 核 状态 切换 到 该 程序 的 内 核 状态 的 过 程 ， 而 用 户 程 
序 的 起 始 状态 的 入 口 ， 即 forkret 等 。) 


进程 调度 类 框架 设计 
设计 思路 


进 ee 度 类 框架 的 设计 是 为 了 更 好 地 实行 各 种 进程 调度 策略 或 工法 ， 为 此 需要 了 解 为 了 实行 

进程 调度 策略 ， 到 底 需要 实现 哪些 基本 功能 对 应 的 数据 结构 ? 首先 考虑 到 一 个 无 论 哪 种 

应征 法 和 需要 选择 一 个 就 绪 进 程 来 占用 CPU 运行 。 为 此 我 们 可 把 就 绪 进 程 组 织 起 来 ， 可 用 
a (双向 链表 ) 、 二 又 树 、 红 黑 树 、 数 组 ... 等 不 同 的 组 织 方式 。 


在 操作 方面 ， 如 果 需 要 选择 一 个 就 绪 进 程 ， 就 可 以 从 基于 某 种 组 织 方式 的 就 绪 进 程 集合 中 选 
a 程 执行 。 需 要 注意 ， 这 里 “选择 "和 “出 ”是 两 个 操作 ， 选 择 是 在 集合 中 挑选 一 个 “ 合 

适 ” 的 进程 ，“ 出 "意味 着 离开 就 绪 进 程 集合 。 另 外 考虑 到 一 个 处 于 运行 态 的 进程 还 会 由 于 某 种 
原因 (比如 时 间 片 用 完了 ) 回 到 就 绪 态 而 不 能 继续 占用 CPU 执 行 ， 这 就 会 0 we 
程 集合 中 。 这 两 种 情况 就 形成 了 调度 器 相关 的 三 个 基本 操作 : 在 就 绪 进 程 集合 中 选 进入 
就 绪 进程 集合 和 离开 就 绪 进 程 集合 。 这 三 个 操作 属于 调度 器 的 基本 操作 。 
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在 进程 的 执行 过 程 中 ， 就 绪 进 程 的 等 待 时 间 和 执行 进程 的 执行 时 间 是 影响 调度 选择 的 重要 因 
素 ， 这 两 个 因素 随 着 时 间 的 流逝 和 各 种 事件 的 发 生 在 不 停 地 变化 ， 比 如 处 于 就 绪 态 的 进程 等 
待 调 度 的 时 间 在 增长 ， 处 于 运行 态 的 进程 所 消耗 的 时 间 片 在 减少 等 。 ， ee 
况 需 要 及 时 让 进程 调度 器 知道 ， 便 于 选择 更 合适 的 进程 执行 。 所 以 这 种 进程 变化 的 情况 就 形 
成 了 调度 器 相关 的 一 个 变化 感知 操作 : timer 时 间 事 件 感知 操作 。 0 或 等 待 的 过 
程 中 ， 调 度 器 可 以 调整 进程 控制 块 中 与 进程 调度 相关 的 属性 值 (比如 消耗 的 时 间 片 、 进 程 优 
人 
等 ) ， 并 最 终 可 能 导致 调 选择 新 的 进程 占用 CPU 运行 。 这 个 操作 属于 调度 器 的 进程 调度 属性 
调整 操作 。 


数据 结构 和 变量 


在 加 上 对 进程 调度 相关 所 需 的 通用 初始 化 操作 ， 就 形成 了 进程 调度 类 框架 的 5 个 指针 函数 ， 每 
个 具体 的 进程 调度 实例 将 分 别 实现 这 5 个 函数 ， 完 成 不 同 的 进程 调度 策略 /算法 。 上 有 具体 而 言 '， 在 
ucore 中 进程 调度 类 定义 如 下 : 


struct sched_class { 
// the name of sched class 
const char *name; 
// Init the run queue 
void (*init)(struct run_queue *rq); 
// put the proc into runqueue, and this function must be called with rq_lock 
void (*enqueue)(struct run_queue *rq, struct proc_struct *proc); 
// get the proc out runqueue, and this function must be called with rq_lock 
void (*dequeue)(struct run_queue *rq, struct proc_ struct *proc); 
// choose the next runnable task 
struct proc_struct *(*pick_next)(struct run_queue *rq); 
// dealer of the time-tick 
void (*proc_ tick)(struct run_ queue *rq, struct proc_ struct *proc); 


}; 


这 其 实 是 对 Linux 内 核 的 调度 类 的 一 种 简化 设计 ， 需 要 注意 这 里 的 run_queue 是 就 绪 进 程 集合 
的 一 种 组 织 方式 ， 并 不 是 特 指 队 列 (queue) ， 我 们 根据 调度 算法 的 具体 设计 ， 也 可 采用 
Linux 的 CFS 调 度 器 的 就 绪 进 程 队列 组 织 结构 -- 红 黑 树 。 在 Ucore 中 ， 不 同调 度 算法 需要 设计 不 
同 的 就 绪 进 程 队列 组 织 结构 。 比 如 lab4/proj13 实 现 的 是 FCFS 调 度 算 法 ， 所 以 就 绪 进 程 只 需 能 
够 按 创建 顺序 链接 如 一 个 双向 链表 即 可 ， 为 此 设计 的 就 绪 进 程 队 列 组 织 结构 就 是 一 个 双向 链 
表 : 


struct run_queue { 
list_entry_t run_list; 
unsigned int proc_num; 


}; 


在 此 结构 中 ， 还 有 一 个 proc_num 成 员 变量 ， 表 示 当 人 个 数 。 对 于 lab4/proj13.1 而 
言 ， 它 实现 了 RR 调度 算法 ， 由 于 RR 调度 算法 需要 分 析 和 调整 每 个 进程 的 时 间 片 ， 所 以 对 就 绪 
进程 队列 组 织 结构 进行 了 小 的 扩展 ， 增 加 了 一 个 最 大 时 间 片 8 ， 用 于 比较 当前 进程 的 时 
间 片 是 否 已 经 超过 了 就 绪 进 程 队列 设计 的 最 大 时 间 片 范畴 。 其 具体 的 设置 如 下 : 


struct run_queue { 
list_entry_t run_list; 
unsigned int proc_num; 
int max_time_ slice; 


}; 


对 于 lab4/proj13.2， 实 现 了 MLFQ 调 度 算法 ， 这 里 包含 了 4 个 不 同 级 别 的 RR 就 绪 队 列 ， 于 是 需 
要 对 就 绪 进 程 队列 进行 进一步 扩展 : 


struct run_queue { 
list_entry_t run_list; 
unsigned int proc_num; 
int max_time_ slice; 
list_entry_t rq_link; 
}; 


其 中 增加 的 rq_link 就 用 于 把 就 绪 进 程 放 入 到 某 个 运行 队列 中 。 男 外 ， 对 于 RR 调度 算法 和 
MLFQ 调 度 算法 而 言 ， 需 要 基于 就 绪 进 程 和 执行 进程 的 时 间 片 来 调整 就 绪 进 程 组 织 结构 和 抢占 
当前 运行 进程 ， 所 以 需要 对 代表 每 个 进程 的 进程 控制 块 进行 扩展 ， 于 是 在 lab4/proj13.1 中 对 进 
程控 制 块 进行 了 扩展 ， 增 加 了 time_slice 成 员 变 量 来 表示 进程 的 时 间 片 。 


这 样 用 于 表示 调度 器 操作 的 数据 结构 sched_class 进 程 调度 类 和 表示 就 绪 进 程 组 织 形式 的 
run_queue 数 据 结 构 就 绪 进 程 队 列 ee 类 框架 的 主体 。 但 如 何在 操作 系统 中 运用 
这 些 数据 结构 ， 来 实现 与 调度 算法 无 关 的 调度 框架 呢 ? 


点 的 关键 调度 相关 兄 数 


在 本 节 中 “进程 调度 时 机 "小 节 分 析 了 进程 在 执行 中 状态 变化 过 程 的 处 理 流 程 。 虽 然 进程 各 种 状 
态 变化 的 原因 和 导致 的 调度 处 理 各 异 ， 但 其 实 仔 细 观 察 各 个 流程 的 共性 部 分 ， 会 发 现 其 中 只 
3 度 相 关 函 数 : wakup_proc、shedule、run_timer list。 如 果 我 们 能 够 让 这 三 
个 调度 相关 朋 数 的 实现 与 具体 调度 算法 无 关 ， 那 么 就 可 以 认为 ucore 实 现 了 一 个 与 调度 算法 无 

关 的 调度 框架 


Wakeup_proc 了 有 函数 其 实 完 成 了 把 一 个 就 绪 进 程 放 入 到 就 绪 进 程 队列 中 的 工作 ， 为 此 还 调用 了 

一 个 调度 类 接口 A he ， 这 使 得 wakeup_proc 的 实现 与 具体 调度 算法 无 

关 。schedule 也 数 完成 了 与 调度 框架 和 调度 算法 相关 三 件 事 情 : 把 当前 继续 占用 CPU 执行 的 运 

行 下 ， Ce 先 择 一 个 “合适 ?就 绪 进 程 ， 把 这 个 “ 合 
适 ” 的 就 绪 进 程 从 就 绪 进 程 队列 中 摘除 。 通 过 调用 三 个 调度 类 接口 函数 


sched _ class_engqueue、sched_ class_pick_next、sched _ class_engqueue 来 使 得 完成 这 三 件 

事情 与 具体 的 调度 算法 无 关 。run timer_list 骂 数 在 每 次 timer 中 断 处 理 过 程 中 被 调用 ， 从 而 可 

度 算法 所 需 的 timer 时 间 事 件 感知 操作 ， 调 整 相 关 进 程 的 进程 调度 相关 的 属性 值 。 
过 调用 调度 类 接口 函数 sched_class_proc_tick 使 得 此 操作 与 具体 调度 算法 无 关 。 


这 里 涉及 了 一 系列 调度 类 接口 函数 : 


sched_class_enqueue 
sched_class dequeue 
sched_class_pick_next 
sched_class_proc_tick 


这 4 个 函数 的 实现 其 实 就 是 调用 某 基 于 sched_ class 数据 结构 的 特定 调度 算法 实现 的 4 个 指针 函 
数 。 采 用 这 样 的 调度 类 框架 后 ， 如 果 我 们 需要 实现 一 个 新 的 调度 算法 ， 则 我 们 需要 定义 一 个 
针对 此 算法 的 调度 类 的 实例 ， 一 个 就 绪 进 程 队 列 的 组 织 结构 描述 就 行 了 ， 其 他 的 事情 都 可 交 
给 调度 类 框架 来 完成 。 


进程 调度 策略 / 萌 法 


FCFS 调 度 工 法 的 实 


FCFS 调 度 算 法 不 需要 考虑 执行 进程 的 运行 时 间 和 就 绪 进 程 的 等 待 时 间 ， 所 以 其 实现 很 简单 。 
首先 其 就 绪 进 程 队列 是 一 个 双向 链表 : 


struct run_queue { 
list_entry_t run_list; 
unsigned int proc_num; 


}; 


并 在 sched.c 中 声明 了 基于 此 数据 结构 的 就 绪 进 程 队 列 rq。 在 执行 Wakup_proc 时 ， 把 进程 加 入 
到 就 绪 进 程 队列 中 (插入 到 rq 的 队列 尾 ) 。 在 执行 schedule 函 数 时 ， 当 前 执行 进程 只 会 是 已 经 
退出 或 者 已 经 睡眠 两 种 情况 ， 这 时 需要 从 就 绪 进 程 队列 中 选择 最 早 进入 就 绪 队 列 的 进程 (位 
于 rq 的 队列 头 ) ， 然 后 把 它 从 就 绪 队 列 中 摘除 。 由 于 没有 时 间 片 的 考虑 ， 所 以 与 run_timer list 
函数 相关 的 FCFS_proc_tick 郊 数 为 空 郧 数 。 我 们 在 看 看 其 他 三 个 FCFS 算 法 相关 的 函数 实现 。 


FCFS_enqueue 的 元 数 实现 如 下 : 


static void 

FCFS_enqueue(struct run_queue *rq, struct proc_struct *proc) { 
assert(list_ empty(&(proc->run_link))); 
list_ add before(&(rq->run_list), &(proc->run_link)); 
proc->rq = rq; 
rq->proc_num ++; 


即 把 一 个 就 绪 进 程 插 入 到 就 绪 进 程 队列 rq 的 队列 尾 ， 并 把 表示 就 绪 进 程 个 数 的 proc_num 加 


FCFS _pick_next 的 函数 实现 如 下 : 


static struct proc_struct * 

FCFS_pick_next(struct run_queue *rq) { 
list_entry_t *le = list next(&(rq->run_list)); 
if (le != &(rq->run_list)) { 

return le2proc(le, run_link); 


} 
return NULL; 


即 选取 就 绪 进 程 队 列 rq 中 的 队 头 队列 元 素 ， 并 把 队列 元 素 转换 成 进程 控制 块 指针 。 


FCFS_dequeue 的 函数 实现 如 下 : 


static void 

FCFS_dequeue(struct run_queue *rq, struct proc_struct *proc) { 
assert(!list empty(&(proc->run_link)) && proc->rq == rq); 
list_ del init(&(proc->run_link)); 
rq->proc_num --; 


即 把 就 绪 进 程 队 列 rq 的 进程 控制 块 指针 的 队列 元 素 删除 ， 并 把 表示 就 绪 进 程 个 数 的 proc_num 
减 一 。 


RR 调度 算法 的 实现 


RR 调度 算法 的 就 绪 队 列 在 组 织 结构 上 也 是 一 个 双向 链表 ， 只 是 增加 了 一 个 成 员 变 量 ， 表 明 在 
此 就 绪 进 程 队 列 中 的 最 大 执行 时 间 片 。 而 且 在 进程 控制 块 proc_struct 中 增加 了 一 个 成 员 变 量 
time_slice， 用 来 记录 进程 当前 的 可 运行 时 间 片 段 。 这 是 由 于 RR 调 度 算 法 需要 考虑 执行 进程 的 
运行 时 间 不 能 太 长 。 在 每 个 timer 到 时 的 时 候 ， 操 作 系 统 会 递减 当前 执行 进程 的 time_slice， 当 
time_silce 为 0 时 ， 就 意味 着 这 个 进程 运行 了 一 段 时 间 (这 个 时 间 片 段 称 为 进程 的 时 间 片 ) ， 
需要 把 CPU 让 给 其 他 进程 执行 ， 于 是 操作 系统 就 需要 让 此 进程 重新 回 到 rq 的 队列 尾 ， 且 重 置 


此 进程 的 时 间 片 为 就 绪 队 列 的 成 员 变量 最 大 时 间 片 max_time_slice 值 ， 然 后 再 从 rq 的 队列 头 取 
出 一 个 新 的 进程 执行 。 下 面 来 分 析 一 下 其 调度 算法 的 实现 。RR_dequeue 和 RR_pick_next 的 
函数 实现 与 FCFS_dequeue 和 FCFS _pick_next 有 函数 实现 一 致 ， 这 里 不 再 乾 述 。 


RR_enqueue 的 元 数 实 现 如 下 : 


static void 
RR_enqueue(struct run_queue *rq, struct proc_struct *proc) { 
assert(list_ empty(&(proc->run_link))); 
list_ add before(&(rq->run_list), &(proc->run_link)); 
If (proc->time_slice == 0 || proc->time_slice > rq->max_time_slice) { 
proc->time_slice = rq->max_time_slice; 
} 
proc->rq = rq; 


rq->proc_num ++; 


即 把 茶 进 程 的 进程 控制 块 指针 放 入 到 rq 队 列 末尾 ， 且 如 果 进 程控 制 块 的 时 间 片 为 0， 则 需要 把 
它 重 置 为 rq 成 员 变 量 max_ time slice。 这 表示 如 果 进 程 在 当前 的 执行 时 间 片 已 经 用 完 ， 需 要 等 
到 下 一 次 有 机 会 运行 时 ， 才 能 再 执行 一 段 时 间 。 


RR_proc tick 的 函数 实现 如 下 : 


Static void 
RR_proc_tick(struct run_queue *rq, struct proc_struct *proc) { 
If (proc->time_slice > 0) { 
proc->time_slice --; 


} 

if (proc->time_slice == 0) { 
proc->need_resched = 1; 

} 


即 每 次 timer 到 时 后 ，trap 骂 数 将 会 间接 调用 此 部 数 来 把 当前 执行 进程 的 时 间 片 time_slice 减 

一 。 如 果 time_slice 降 到 零 ， 则 设置 此 进程 成 员 变 量 need_resched 标 识 为 1， 这 样 在 下 一 次 中 
断 来 后 执行 trap 有 函数 时 ， 会 由 于 当前 进程 程 成 员 变 量 need_resched 标 识 为 1 而 执行 Schedule 也 
数 ， 从 而 把 当前 执行 进程 放 回 就 绪 队 列 末尾 ， 而 从 就 绪 队 列 头 取出 在 就 绪 队 列 上 等 待 时 间 最 
久 的 那个 就 绪 进 程 执行 。 

MLFQ 调 度 算 法 的 实现 

当前 MLFQ 调 度 算法 其 实 是 对 RR 算 法 的 进一步 扩展 ， 即 把 一 个 rq 队 列 扩 展 为 了 n 个 rq 队 列 。 多 
个 rq 队 列 确 保 了 长 时 间 运 行 的 进程 优先 级 会 随 着 执行 时 间 的 增加 而 降低 ， 而 短 时 间 运 行 的 进程 
会 优 于 长 时 间 运 行 的 进程 被 先 调 度 执行 。 在 proj13.2 中 实现 了 一 个 比较 简单 的 MLFQ 调 度 算 
法 ， 其 就 绪 队 列 由 4 个 双向 链表 组 成 (在 sched.c 中 定义 ) 


static struct run_queue __rq[4]; 


第 i 个 rq 的 最 大 时 间 片 为 8* (1<<i) ， 其 中 0<=i<4。 创 建 的 新 进程 首先 会 放 到 第 0 个 rq 中 ， 这 样 
新 创建 的 进程 的 时 间 片 为 8 ( 即 第 0 个 rq 的 最 大 时 间 片 ) ， 如 果 进程 用 完了 其 时 间 片 ， 则 会 降 
到 第 1 个 rq 中 ， 此 时 这 个 进程 的 时 间 片 设置 为 16 ( 即 第 1 个 rq 的 最 大 时 间 片 ) ， 持 续 下 去 ， 直 
到 第 3 个 rq， 此 时 ， 此 时 这 个 进程 的 时 间 片 设置 为 64 ( 即 第 3 个 rq 的 最 大 时 间 片 ) 。 


下 面 来 分 析 一 下 其 调度 算法 的 实现 。MLFQ dequeue 和 MLFQ _proc tick 的 函数 实现 就 是 直接 
调用 RR_dequeue 和 RR proc tick 有 函数 ， 这 里 不 再 次 述 。 


MLFQ_enqueue 的 函数 实现 如 下 : 


static void 
MLFQ_enqueue(struct run_ queue *rq, struct proc_struct *proc) { 
assert(list_ empty(&(proc->run_link))); 
struct run_queue *nrq = rq; 
if (proc->rq != NULL && proc->time_slice == 0) { 
nrq = le2rq(list_ next(&(proc->rq->rq_link)), rq_link); 
if (nrq == rq) { 
nrq = proc->rq; 
} 
} 


sched_class->enqueue(nrq, proc); 


如 果 判 断 进程 proc 的 rq 不 为 空 且 time_silce 为 0, 则 需要 降 rq 队 列 ， 从 rq[i] 调 整 到 rq[it1]， 如 果 是 
最 后 一 个 rq， 即 rq[3]， 则 继续 保持 在 rq[3] 中 ， 然 后 调用 RR_enqueue 把 proc 插 入 到 rq[i+ 们 中 。 


MLFQ_pick_next 的 元 数 实 现 如 下 : 


static struct proc_struct * 
MLFQ_pick_next(struct run_queue *rq) { 
struct proc_struct *next; 
list_entry_t *list = &(rq->rq_link), *le = list; 
do { 
If ((next = sched_class->pick_next(le2rq(le, rq_link))) != NULL) { 
break; 
} 
le = list_ next(le); 
} while (le != list); 
return next; 


按 顺序 从 rq[0]~rq[3] 依 次 搜寻 ， 直 接 调 用 RR_pick_next 来 查找 某 rq 链表 的 头 指 向 的 就 绪 进 程 ， 
只 要 找到 就 返回 。 


目前 的 实现 其 实 相 对 简化 了 不 少 。 我 们 把 睡眠 时 间 长 的 进程 设 定 为 ID-bounded 进 程 。 如 果 有 
一 个 进程 经 常 等 待 某 IO 事件 (比如 鼠标 移动 或 按键 ) ， 然 后 占用 一 部 分 CPU 时 间 ， 但 整体 上 
执行 了 很 长 时 间 ， 则 这 类 进程 也 算是 ID-bounded 进 程 ， 需 要 得 到 及 时 响应 。 如 果 采 用 上 述 
MLFQ 调 度 算法 ， 则 此 进程 也 会 落 到 rq[3] 中 执行 ， 导 致 这 类 进程 无 法 及 时 响应 IO 事件 。 出 现 这 
种 原因 的 情况 是 上 述 调 度 算 法 只 考虑 了 对 运行 的 进程 做 降级 惩罚 操作 ( 即 只 是 根据 运行 时 间 
的 增加 来 递增 ji， 使 得 运行 时 间 长 的 进程 最 终 都 会 落 到 rq[3] 中 ) ， 但 对 于 睡眠 很 久 的 进程 没有 
做 升级 奖励 操作 (〈 即 没有 根据 睡眠 时 间 的 增加 来 递减 i， 使 得 睡眠 时 间 长 的 进程 能 够 尽量 保持 
在 rq[0] 中 ) 。 


【问题 】 对 于 新 创建 的 子 进程 ， 在 FCFS/RR/MLFQ 调 度 算法 如 何 设 定 其 时 间 片 比较 合理 ? 
【 问题】 如 何 扩 展 MLFQ 调 度 算法 ， 可 减少 长 期 运行 的 ID-bounded 进 程 的 响应 时 间 ? 


【 问题】 如 果 需 要 实现 内 核 级 抢占 〈kernel preemptive) ,需要 如 何 设计 ucore? 


小 结 
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附录 


UCOre 历 史 


写 一 个 教学 ODS 的 初衷 是 陈 渝 老师 和 向 勇 老师 想 参 考 MIT 的 Xv6/JOS 开 发 一 个 能 够 与 ODS 课程 教 
材 相 配套 的 OS 实验 环境 。 没 有 直接 采用 xv6/JOS 的 原因 是 当时 (2008 年 ) xv6 没 有 完整 的 保 
护 模 式 页 机 制 和 虚 存 管理 机 制 ，JOS 不 是 传统 的 UNIX 单 体内 核 架 构 ， 而 是 Exokerne 内 核 架 
构 ， 与 当前 OS 教学 的 知识 点 有 点 远 ， 在 互联 网 上 找 了 一 图， 没有 合适 的 。 有 人 说 为 何不 用 
Linux ? 其 实 Linux 确 实 提 好 的 ， 只 是 对 于 首次 学 习 OS 原 理 的 本 科 生 要 在 短 短 一 学 期 内 搞 懂 
Linux 的 部 分 实现 细节 ， 可 能 付出 的 代价 会 比较 大 ， 需 要 冒 着 挂 掉 其 他 课 的 风险 。 为 此 陈 渝 老 
师 鼓 励 他 带 的 硕士 研究 生 王 乃 峰 试 试 能 否 仿 照 xv6 和 linux 自 己 鼓 的 一 个 教学 用 的 小 QOS， 并 用 
Ken Thompson 和 Linus 在 短 短 3 个 月 分 别 开 发 了 UNIX 和 Linux 的 故事 来 从 精神 上 激励 他 。 王 万 
呼 同学 看 了 xv6 的 代码 ， 本 着 试 试 看 的 想法 ， 就 开始 coding， 并 查看 各 种 相关 文档 和 资料 ， 发 
现 也 只 花 了 短 短 一 个 月 不 到 的 时 间 就 完成 了 支持 lab1 实 验 的 ucore OS ; 为 此 信心 大 增 ， 以 月 
为 单位 又 接连 完成 了 支持 lab2~lab8 的 Ucore OS， 前 后 大 约 花 了 8 个 月 〈 这 8 个 月 还 顺便 完成 了 
减轻 体重 和 找 女 朋友 的 重要 工作 ) 。 做 完 此 事后 ， 王 乃 峥 同学 离 毕 业 只 有 3 个 时 间 了 。 有 了 之 
前 OS 开发 的 底子 ， 他 在 3 个 月 的 时 间 内 ， 完 成 了 Linux kernel 相 关 的 硕士 课题 ， 顺 利 毕 业 ， 开 
始 了 他 的 创业 生涯 。 


在 此 之 后 ， 茅 俊 术 同学 接手 了 Ucore 的 进一步 改进 ， 在 他 直 博 期 间 长 期 担任 操作 系统 课程 的 助 
教 ， 他 做 的 一 些 有 意思 包括 ， 扩 展 ucore-plus (ucore 加 强 版 ) 支持 用 户 态 ucore 的 设计 实现 

(课程 大 实验 ) ， 移 植 到 mips/openrisc 等 CPU 上 等 。 目 前 已 经 顺利 毕业 ， 开 始 了 在 产业 界 的 
工作 。 再 后 来 ， 又 有 不 少 同学 进行 了 尝试 ， 比 如 最 近 (2017 年 ) 张 兰 同 学 把 ucore 移 植 到 了 开 
源 的 RISC-V32 CPU 上 ， 并 准备 在 2018 年 做 助教 辅导 他 的 同班 同学 。 


而 向 勇 老师 和 陈 渝 老师 鼓励 和 引导 后 续 的 学 生 继 续 着 操作 系统 教学 和 科研 的 快乐 之 旅 。 芒 俊 

杰 、 陈 宇 恒 、 刘 聪 、 杨 扬 、 渠 准 、 任 胜 伟 、 朱 文 雷 、 曹 正 、 沈 形 、 陈 旭 、 蓝 入 、 方 宇 剑 、 韩 

文 涛 、 张 饥 成 、 郭 晓 林 、 蕉 天 几 、 胡 刚 、 刘 超 、 困 裕 、 表 昕 旺 、 张 宇 翔 、 王 邀 、 张 奎 、 雷 凯 

翔 等 同学 在 他 们 学 习 OS 课 程 和 实践 ucore OS 的 过 程 中 给 老师 们 留 下 了 深刻 的 印象 。 目 前 发 现 
ucore 中 有 不 少 的 bug (不 过 少 于 Linux 的 bug) ， 陈 渝 老师 准备 带 着 学 生 再 研究 一 些 算法 、 方 

法 和 工具 ， 能 够 在 ucore 运 行 前 通过 静态 分 析 的 方法 发 现 其 潜在 的 bug， 而 且 希 望 能 够 在 Ucore 
在 编译 时 或 渊 演 时 ， 找 到 内 核 代码 的 bug 在 哪里 ， 并 能 分 析出 为 何 这 个 内 核 代 码 会 导致 ucore 

淹 溃 的 因果 链 (如 果 有 人 感 兴趣 做 这 方面 的 尝试 ， 欢 迎 直接 电邮 /电话 陈 渝 老师 ! ) 。 硕 望 这 

样 能 够 减轻 大 家 学 习 OS 实 验 的 负担 。 


ucore lab 中 的 工程 项 目 列表 


lab1 : bootloader 启 动 操作 系统 
lab2 : 物理 内 存 管理 

lab3 : 虚拟 内 存 管 理 

lab4 : 内 核 线程 

lab5 : 用 户 进程 

lab6 : 处 理 器 调度 

lab7 : 同步 互 斥 和 进程 间 通 信 (IPC) 
lab8 : 文件 系统 


mADmDND 一 


1. lab1 : bootloader 启 动 操作 系统 


启动 /保护 模式 
e。 proj1 : bootloader 能 切换 到 X86-32 保 护 模 式 且 能 够 通过 串口 、 并 口 、 显 示 器 来 显示 字符 
囊 


。 proj2 (<--proj1) : bootloader 能 读 磁盘 且 分 析 加 载 ELF 格 式 的 文件 
e。 proj3 (<--proj2) : bootloader 能 ELF 执 行文 件 格式 的 Ucore toy OS， 目 前 这 个 toy OS 只 能 
答应 字符 串 


显示 函数 调用 覆 


e。 proj3.1 (<--proj3) : ucore 能 输出 函数 调用 栈 信 息 ( 包 括 函 数 名 和 行 号 )， 这 样 便于 OS 出 错 后 
分 析 问 题 


响应 外 设 中 断 


。 proj4 (<--proj3.1) : ucore 可 处 理 从 串口 (COM1)、 键 前、 时 钟 外 设 来 的 中 断 


支持 用 户 态 和 内 核 态 ， 以 及 系统 调用 机 制 


e。 proj4.1 (<--proj4) : 为 了 支持 proj 4.1.1/2 系 统 调用 机 制 ，ucore 重 新 初始 化 并 增加 了 用 户 态 
的 代码 段 和 数据 段 

e proj4.1.1(<--proj4.1) : 用 x86 的 中 断 机 制 实现 系统 调用 机 制 

e proj4.1.2(<--proj4.1) : 用 x86 的 门 (gate) 机 制 实现 系统 调用 机 制 


支持 远程 gdb 调 试 (附加 部 分 ， 其 实 通过 qemu 的 gdb remote 
server 也 可 实现 大 部 分 功能 ) 


。 proj4.2 (<--proj4.1) : ucore 增 加 gdb remote server/stub， 这 样 可 以 通过 gdb 远 程 调 试 
ucore 
。 proj4.3 (<--proj4.2) : ucore 支 持 硬件 breakpoint 和 watchpoint， 从 而 具有 内 部 debugger 功 
能 
2. lab2 : 物理 内 存 管理 
物理 内 存 管理 


e。 proj5 (<--proj4.3) : ucore 支 持 保护 模式 下 的 分 页 机 制 ， 并 能 够 管理 物理 内 存 


OS 教材 上 的 连续 物理 内 存 分 配 算法 


e。 proj5.1 (<--proj5) : 最 佳 适 配 算 法 
e。 proj5.1.1 (<--proj5.1) : 首次 适 配 算法 
e。 proj5.1.2 (<--proj5.1) : 最 坏 适 配 算法 


实际 OS 中 的 以 页 大 小 (4KB ) 为 单位 的 连续 物理 内 存 分 配 莫 法 
e。 proj5.2 (<--proj5.1) : 伙伴 (buddy) 分 配 算法 
实际 OS 中 的 小 于 页 大 小 的 连续 物理 内 存 分 配 算 
e。 proj6 (<--proj5.2) : SLAB 内 存 分 配 算法 
3. lab3 : 虚拟 内 存 管理 
支持 页 访问 错误 异常 的 处 理 
e。 proj7 (<--proj6) : 能 够 有 页 访问 错误 异常 的 处 理 机 制 ， 提 供 了 虚 存 管理 (VMM) 的 框架 
提供 swap 机 制 ， 为 能 够 实现 各 种 页 替换 算法 做 好 准备 
e。 proj8 (<--proj7) : 实现 swap in/out 机 制 ， 并 加 入 页 替换 算法 的 实现 框架 


A 大 


pn ， 并 提供 dup, exit 等 骂 数 ， 为 后 续 进 程 管 
里 ( 比如 创建 子 进程 等 ) 做 好 准备 


e。 proj9 (<--proj8) : 增加 内 核 函 数 map, unmap, dup, exit 等 

实现 share memory 机制 ， 为 后 续 进 程 间 共享 内 存 空间 做 好 准备 
e。 proj9.1 (<--proj9) : 实现 shmem _t 内 存 结构 ， 并 完成 香港 函数 ， 实 现 share memory 

3 实现 COW 机 制 ， 为 高 效 创建 子 进 程 做 好 准备 


e proj9.2 (<--proj9.1) : 实现 支持 高 效 进程 复制 的 虚 存 核心 功能 Copy On Write (简称 
COW) 


4. lab4 : 内 核 线程 


创建 内 核 线 程 ， 此 时 需要 引入 调度 ， 进 程 上 下 文 切换 等 机 制 
e。 proj10 (<--proj9.2) : 实现 线程 和 进程 管理 的 关键 数据 结构 进程 控制 块 (Process Control 


Block, 简称 PCB ) ， 完 成 对 内 核 线程 的 创建 所 需 功 能 ， 并 建立 基本 的 调度 机 制 ， 主 要 是 
体现 能 够 切换 两 个 内 核 线程 。 


5. lab5 : 用 户 进程 


。 proj10.1 (<--proj10) : 实现 用 户 进程 管理 框架 ， 并 完成 与 创建 用 户 进程 相关 的 内 核 函 数 
( 读 ELF 格 式 的 文件 、fork、execve) ， 以 及 与 调度 进程 相关 的 调度 器 


与 进程 生命 周期 相关 的 系统 调用 
。 proj10.2 (<--proj10.1) : 实现 进程 管理 相关 的 系统 调用 wait、kill 、exit 
进程 中 的 堆 管 理 系 统 调用 sys_brk 
e。 proj10.3 (<--proj10.2) : 完成 管理 用 户 进程 的 内 存 堆 (heap) 的 系统 调用 sys_brk 


与 进程 生命 周期 相关 的 涉及 睡眠 和 唤醒 的 系统 调用 


e proj10.4 (<--proj10.3) : 完成 用 户 进程 调度 相关 的 函数 sleep， 并 增加 timer 的 功能 支持 


采用 内 核 线程 机 制 ， 能 够 根据 系统 状态 更 好 地 动态 支持 Swap 
in/out 虚 存 功能 


e。 proj11 (<--proj10.4) : 用 内 核 线 程 方 式 实现 虚 存 的 swap 机 制 


实现 用 户 态 的 线程 (基本 原理 与 Linux 的 轻 量 级 进程 一 致 ) 


e。 proj12 (<--proj11) : 实现 系统 调用 map、unmap 和 共享 内 存 share memory， 实 现 用 户 态 线 
程 机 制 ; 


6. lab6 : 处 理 器 调度 


OS 教材 上 的 调度 算法 


e。 proj13 (<--proj12) : 实现 通用 调度 框架 和 简单 的 想来 先 服务 (First Come First Serve， 简 
称 FCFS) 调度 萌 法 

e。 proj13.1 (<--proj13) : 实现 轮转 (RoundRobin， 简 称 RR) 掉 短 算法 

e。 proj13.2 (<--proj13.1) : 实现 多 级 反馈 队列 (MultiLevel Feedback Queue， 简 称 MLFQ ) 
调度 算法 


7. lab7 : 同步 互 斥 和 进程 间 通 信 (IPC) 


OS 教材 上 的 信号 量 机 制 


e。 proj14 (<--proj13.2) : 实现 内 核 中 的 信号 量 (semaphore) 机 制 


用 户 态 进 程 的 信号 量 ， 需 要 考虑 一 些 实际 情况 (比如 一 个 获得 信 
号 量 的 进程 潮 溃 了 ) 


e。 proj14.1 (<--proj14) : 实现 用 ee 态 进 程 /线程 的 信号 量 机 制 ， 
e。 proj14.2 (<--proj14.1) : 增加 在 信号 量 等 待 中 的 超时 判断 机 制 


其 他 一 些 IPC 机 制 ， 在 一 些 实时 OS 中 常 


e。 proj15 (<--proj14.2) : 实现 事件 (event ) IPC 机 制 
e proj16 (<--proj15) : 实现 邮箱 (mailbox) IPC 机 制 


OS 教材 上 的 管 程 (Monitor) 和 条 件 变量 机 制 


e。 proj16.1 (<--proj16) : 实现 管 程 和 条 件 变 量 


8. lab8 : 文件 系统 


建立 虚拟 文件 系统 ， 把 设备 按 文件 来 管理 


e。 proj17 (<--proj16) : 实现 vfs 框 架 , file 数 据 结构 和 相关 操作 ， 文 件 化 各 种 输入 输出 外 设 
(stdin, stdout, null) 


按照 文件 的 方式 实现 一 种 UNIX 中 常见 的 IPC 机 制 -- 管 道 (PIPE ) 


e。 proj17.1 (<--proj17) : 实现 匿名 管道 (PIPE) 和 有 名 管道 (FIFO ) 


增加 SFS (简单 文件 系统 --sfs， 并 实现 用 户 进程 访问 文件 所 涉及 
的 函数 ) 


e proj18 (<--proj17.1) : 在 VFS 上 增加 具体 文件 系统 实例 sfs 'simple filesystem' 和 对 应 的 文件 
操作 相关 元 数 


增加 sfs 中 目录 访问 相关 的 函数 


e proj18.1 (<--proj18) : 增加 mkdir/link/rename/unlink (hard link) 相 关 的 系统 调用 和 内 核 函 数 


实现 了 通过 exec 加 载 存 储 在 磁盘 上 的 执行 文件 并 创建 /执行 进程 
的 功能 


实现 eXxec 功 能 
e proj18.2 (<--proj18) : add exec 

扩展 exec 功 能 ， 在 加 载运 行 应 用 程序 能 够 带 上 执行 参数 
® proj18.3 (<--proj18.2) : add exec with arguments (at most 32) 


在 上 述 ucore OS 的 支持 上 实现 了 shell (一 个 用 户 态 的 命令 行 交 
互 执行 程序 ) 


e proj19 (<--proj18.3) : shell 


开发 维护 人 员 
e 当前 维护 者 
o 陈 渝 http://soft.cs.tsinghua.edu.cn/~chen yuchen@tsinghua.edu.cn 
o 芒 俊 术 eternal.n08@gmail.com 
o 向 勇 xyong@tsinghua.edu.cn 
。 贡献 者 
荐 俊杰 、 陈 宇 恒 、 刘 聪 、 杨 扬 、 渠 准 、 任 胜 伟 、 朱 文 雷 、 曹 正 、 沈 形 、 陈 奶 、 蓝 入 、 方 
宇 剑 、 韩 文 涛 、 张 凯 成 、 S 郭 晓 林 、 薛 天 凡 、 胡 刚 、 刘 超 、 果 裕 、 袁 昕 显 .… 


Ucore 实 验 中 的 第 用 工具 


在 ucore 实 验 中 ， 一 些 基 本 的 常用 工具 如 下 : 


。 命令 行 shell: bash shell -- 有 对 文件 和 目录 操作 的 各 种 命令 ， 如 Is、cd、rm、pwd... 
。 系统 维护 工具 : apt、git 
o apt : 安装 管理 各 种 软件 ， 主 要 在 debian, ubuntu linux 系 统 中 
o git : 开发 软件 的 版 本 维护 工具 
。 源码 阅读 与 编辑 工具 : eclipse-CDT、understand、gedit、vim 
o Eclipse-CDT : 基于 Eclipse 的 C/C++ 集 成 开发 环境 、 跨 平台 、 丰 富 的 分 析 理 解 代码 的 
功能 ， 可 与 qemu 结 合 ， 联 机 源码 级 Debug uCore OS 。 
o Understand : 商业 软件 、 跨 平台 、 丰 富 的 分 析 理 解 代 码 的 功能 ，Windows 上 有 类 似 
的 sourceinsight 软 件 
o gedit : Linux 中 的 常用 文本 编辑 ，Windows 上 有 类 notepad 
o vim: Linux/unix 中 的 传统 编辑 器 ， 类 似 有 emacs 等 ， 可 通过 exuberant-ctags、cscope 
等 实现 代码 定位 
e 源码 比较 工具 : dif、meld， 用 于 比较 不 同 目录 或 不 同文 件 的 区 别 
o diff 是 命令 行 工具 ， 使 用 简单 
o meld 是 图 形 界 面 的 工具 ， 功 能 相对 直观 和 方便 ， 类 似 的 工具 还 有 kdiff3、 
difmerge、P4merge 
。 开发 编译 调试 工具 : gcc 、gdb 、make 
o gcc : C 语 言 编译 器 
o gdb : 执行 程序 调试 器 
o ld : 链接 器 
o objdump : 对 E 执 行程 序 文件 进行 反 编 译 、 转 换 执 行 格式 等 操作 的 工具 
o nm : 查看 执行 文件 中 的 变量 、 函 数 的 地 址 
o readelf : 分 析 ELF 格 式 的 执行 程序 文件 
o make : 软件 工程 管理 工具 ，make 命 令 执行 时 ， 需 要 一 个 makefile 文件 ， 以 告诉 
make 命 令 如 何 去 编 译 和 链接 程序 
o dd : 读 写 数据 到 文件 和 设备 中 的 工具 
。 硬件 模拟 器 : qemu -- qemu 可 模拟 多 种 CPU 硬 件 环 境 ， 本 实验 中 ， 用 于 模拟 一 台 intel 
X86-32 的 计算 机 系统 。 类 似 的 工具 还 有 BOCHS, SkyEye 等 


e apt-get 
o http://wiki.ubuntu.org.cn/Apt- 


附录 D--ucore 实 验 中 的 工具 


get%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D9%o97 
git 
o http://www.cnblogs.com/cspku/articles/Git_cmds.html 
gcc 
o http:/wiki.ubuntu.org.cn/Gcchowto 
o http://wiki.ubuntu.org.cn/Compiling Cpp 
o http://wiki.ubuntu.org.cn/C_Cpp_IDE 
o http:/wiki.ubuntu.org.cn/C%E8%AF%AD%E8%A8%80%E7%AE%80Y%E8%A6%81 
%E8%AF%AD%E6%B39%95%E6%8C%87%E5%8D%97 
gdb 
o http:/wiki.ubuntu.org.cn/%E7%94%A8GDB%E8%B0%83%E8%AF%95%E7%A89% 
8B%E5%BA%8F 
make & makefile 
o http://wiki.ubuntu.com.cn/index.php? 
title=%E8%B7%9F%E6%88%91%E4%B8%80%E8%B5%B7%E5%86%99Makefile 
&variant=zh-cn 
o http://blog.csdn.net/a_ran/article/details/43937041 
shell 
o http://wiki.ubuntu.org.cn/Shell%E7%BC%96%E7%A8Y%8B%ES%IF WBAW%E7 %AT1 
%80 
o http://wiki.ubuntu.org.cn/%E9%AB%9I98%E7W%BA%A7Bash%E8%84%I9AWE6%IC 
%AC9%E7%BC%96%E79%A8%8B%E6%8C%87%E5%8D%97 
understand 
o http://blog.csdn.net/qwang24/article/details/4064975 
vim 
o http://www.httpy.com/html/wangluobiancheng/Perljiaocheng/2014/0613/93894.html 
o http://wenku.baidu.com/view/4b004dd5360cba1aa811dar77.html 
meld 
o https://linuxtoy.org/archives/meld-2.html 
qemu 
o http://wenku.baidu.com/view/04c0116aa45177232f60a2eb.html 
Eclipse-CDT 
o http://blog.csdn.net/anzhu_111/article/details/5946634 
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MOOC OS 相关 资料 
基本 概念 和 原理 


。 MOOC OS 2015 on 学 堂 在 线 


https://www.xuetangx.com/courses/TsinghuaX/30240243X/2015_T1/about 
e。 MOOC OS 2014 on TOPU http://www.topu.com/mooc/4100 


OS 设计 与 实现 细节 


e。 OS 实验 代码 https://github.com/chyyuu/mooc os _ lab 


动手 实践 OS 


。 "操作 系统 简单 实现 与 基本 原理 一 基于 ucore" http://chyyuu.gitbooks.io/ucorebook/ 

e。 "操作 系统 简单 实现 与 基本 原理 一 基于 ucore" 配套 代码 
https://github.com/chyyuu/ucorebook_code 

e。 Ucore plus 跨 硬 件 平台 的 ucore OS https://github.com/chyyuu/ucore_plus 


MOOC OS 2015 WIKI 
。 http://os.cs.tsinghua.edu.cn/oscourse/OS2015 


e@ 清华 计算 机 系 MOOC OS 课程 在 线 QA 平 台 
。 QQ 群 181873534 主要 用 于 事件 通知 ， 聊 天 等 


课程 汇总 信息 


e@ 课程 汇总 


附录 E--MOOC OS 相关 信息 
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版 权 信 息 


ucore OS 是 用 于 清华 大 学 计算 机 系 本 科 操 作 系 统 课程 的 OS 教学 试验 内 容 。Ucore OS 起 源 于 
MIT CSAIL PDOS 课 题 组 开发 的 xv6&jos、 哈 佛 大 学 开发 的 OS161 教 学 操作 系统 、 以 及 Linux- 
2.4 内 核 。 


Ucore OS 中 包含 的 xv6&jos 代 码 版 权 属 于 Frans Kaashoek, Robert Morris, and Russ Cox， 使 
用 MIT License。ucore OS 中 包含 的 OS/161 代 码 版 权 属于 David A. Holland。 其 他 代码 版 权 属 
于 陈 渝 、 王 乃 峰 、 向 勇 ， 并 采用 GPL License. ucore OS 相 关 的 文档 版 权 属 于 陈 渝 、 向 勇 ， 并 
采用 Creative Commons Attribution/Share-Alike (CC-BY-SA) License. * 


